סריקה של פרופיל נתונים לנתונים לא מובְנים (UnstructuredDataProfileSpec)
מבוססת על מודלים של Vertex AI Gemini 2.5 Pro ומנתחת טבלאות של אובייקטים קיימים ב-BigQuery כדי להפוך קבצים גולמיים ולא מובְנים ב-Cloud Storage (כמו קובצי PDF) לנכסים מובְנים שאפשר להריץ עליהם שאילתות. תהליך העבודה העצמאי הזה מיועד למשתמשים שכבר יש להם טבלאות אובייקטים ב-BigQuery, והוא תומך בהנחיית החילוץ באמצעות הנחיה מותאמת אישית. אם אתם מתחילים עם קבצים גולמיים ב-Cloud Storage ורוצים להשתמש בתהליך עבודה אוטומטי לגילוי נתונים, כדאי לעיין במאמר בנושא שימוש בסריקת גילוי לנתונים לא מובנים.
במאמר הזה מוסבר איך מגדירים את ההרשאות הנדרשות, מכינים את טבלת האובייקטים, יוצרים סריקה של פרופיל נתונים לנתונים לא מובְנים באמצעות REST API, צופים בתובנות שנוצרו, אוצרים פרופילים של גרפים ומחלצים את הנתונים ל-BigQuery.
לפני שמתחילים
לפני שיוצרים סריקה של פרופיל נתונים לנתונים לא מובנים, צריך לוודא שיש לכם את ההרשאות הנדרשות וממשקי ה-API מופעלים.
הפעלת ממשקי ה-API
מפעילים את ממשקי ה-API הבאים בפרויקט:
dataplex.googleapis.combigquery.googleapis.com-
aiplatform.googleapis.com(Vertex AI)
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים
תפקידים והרשאות נדרשים
הסקת משמעות סמנטית מנתונים לא מובנים היא תכונה מתקדמת לסריקת פרופיל נתונים שפועלת על טבלאות אובייקטים ב-BigQuery. כדי להגדיר ולהפעיל פרופיל נתונים לא מובנים, צריך לוודא שיש לכם את הרשאות הבסיס לגישה לטבלת האובייקטים, ולהעניק תפקידים נוספים להסקת משמעות סמנטית בכמה סוכני שירות.
תפקידים בטבלת אובייקטים של קבוצת הבסיס
כדי לגשת לטבלת אובייקטים ב-BigQuery ולהריץ עליה שאילתות, צריך לוודא שלכם ולחשבונות השירות שמשמשים את Knowledge Catalog יש את תפקידי הבסיס הבאים בניהול הזהויות והרשאות הגישה (IAM) בפרויקט:
- צפייה בנתוני BigQuery (
roles/bigquery.dataViewer) - משתמש עם הרשאת גישה לחיבור BigQuery (
roles/bigquery.connectionUser)
רשימה מלאה של הדרישות המוקדמות לטבלאות אובייקטים מופיעה במאמר יצירת טבלאות אובייקטים.
תפקידים נוספים להסקת מסקנות סמנטית
בנוסף לגישה הבסיסית לטבלה, חשוב לוודא שלכם ולחשבונות השירות יש את התפקידים הנוספים הבאים ב-IAM.
סיכום של זהויות ותפקידים נוספים
| סוג הזהות | הפורמט האופייני של חשבון המשתמש | התפקידים שצריך ב-IAM | המטרה העיקרית |
|---|---|---|---|
| משתמש קצה | חשבון המשתמש שלכם ב- Google Cloud |
|
אתם משתמשים בתפקידים הנוספים האלה כדי להגדיר סריקות, להציג תוצאות שנוצרו על ידי AI, לאצור פרופילים של תרשימים ולהפעיל את חילוץ הנתונים הסופי. |
| סוכן הגילוי של Dataplex Universal Catalog | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com |
|
סוכן השירות הזה שמנוהל על ידי Google משתמש בתפקידים הנוספים האלה כדי להתקשר אל Vertex AI וליצור סכימות ומטא-נתונים משוערים. |
| חשבון שירות לחיבור ל-BigQuery | זהות ייחודית שמשויכת לחיבור שלכם (לדוגמה, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com) |
|
הוא מקשר את BigQuery לאחסון חיצוני, ומאפשר ל-BigQuery לקרוא את הקבצים הגולמיים, ליצור טבלאות אובייקטים ולהריץ הסקת מסקנות מבוססת-AI בלי לחשוף את פרטי הכניסה האישיים של המשתמש. |
| חשבון שירות להפעלת צינור עיבוד נתונים (אופציונלי) | חשבון שירות שמנוהל על ידי משתמש |
|
אם תבחרו לחלץ נתונים באמצעות צינור נתונים אוטומטי, הזהות הזו תריץ את משימות הרקע כדי להפוך את הישויות שנוצרו על ידי AI לטבלאות ב-BigQuery. |
| חשבון השירות שמוגדר כברירת מחדל ב-Dataform (אופציונלי) | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com |
|
כשמשתמשים בשיטת החילוץ של צינור עיבוד הנתונים, Dataform דורש הרשאה להתחזות לחשבון השירות של שירות הפעלת צינור עיבוד הנתונים כדי לתזמן את תהליך העבודה. |
תפקידים והרשאות של משתמשי קצה
כדי לוודא שלחשבון המשתמש שלכם יש את ההרשאות הנדרשות ליצירת סריקות, להצגת תובנות, לעריכת פרופילים של גרפים ולחילוץ נתונים, צריך לבקש מהאדמין להקצות לחשבון המשתמש שלכם את תפקידי ה-IAM הבאים בפרויקט:
-
ליצור סריקות ולראות תובנות:
- עריכה של סריקת נתונים ב-Dataplex (
roles/dataplex.dataScanEditor) - עורך הקטלוג של Dataplex (
roles/dataplex.catalogEditor)
- עריכה של סריקת נתונים ב-Dataplex (
-
חילוץ נתונים באמצעות SQL או צינור עיבוד נתונים:
- עריכה של נתוני BigQuery (
roles/bigquery.dataEditor) - BigQuery Job User (
roles/bigquery.jobUser)
- עריכה של נתוני BigQuery (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירת סריקות, להצגת תובנות, לעריכת פרופילים של גרפים ולחילוץ נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור סריקות, לצפות בתובנות, לאצור פרופילים של גרפים ולחלץ נתונים, צריך את ההרשאות הבאות:
-
DataScans:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.list -
dataplex.datascans.update
-
-
חילוץ נתונים:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.getData -
bigquery.jobs.create
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון המשתמש שלכם את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
תפקידים והרשאות של סוכן שירות לגילוי נתונים ב-Dataplex
הסוכן של שירות הגילוי של Dataplex הוא סוכן שירות שצריך גישה כדי להריץ סריקות ולבצע הסקה סמנטית באמצעות Vertex AI.
כדי לוודא שלסוכן השירות של Dataplex Discovery (בדרך כלל service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) יש את ההרשאות הנדרשות להרצת סריקות ולביצוע הסקה סמנטית באמצעות Vertex AI, צריך לבקש מהאדמין להקצות לסוכן השירות של Dataplex Discovery (בדרך כלל service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) את תפקידי ה-IAM הבאים בפרויקט:
-
הכול:
- משתמש Vertex AI (
roles/aiplatform.user) - סוכן שירות של Dataplex Discovery (
roles/dataplex.discoveryServiceAgent) - BigQuery Job User (
roles/bigquery.jobUser) - BigQuery Data Viewer (
roles/bigquery.dataViewer)
- משתמש Vertex AI (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להפעלת סריקות ולביצוע הסקה סמנטית באמצעות Vertex AI. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי להריץ סריקות ולבצע הסקה סמנטית באמצעות Vertex AI, נדרשות ההרשאות הבאות:
-
הכול:
-
aiplatform.endpoints.predict -
bigquery.datasets.create -
bigquery.datasets.get -
bigquery.tables.get -
bigquery.tables.getData -
storage.buckets.get -
storage.objects.get -
storage.objects.list
-
יכול להיות שהאדמין יוכל גם להעניק לסוכן השירות של Dataplex (בדרך כלל service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
תפקידים והרשאות של חשבון שירות לחיבור BigQuery
קישור למשאבים ב-Cloud ב-BigQuery מאפשר ל-Knowledge Catalog לגשת לנתונים לא מובנים שמאוחסנים ב-Cloud Storage. כשיוצרים חיבור, BigQuery יוצר באופן אוטומטי חשבון שירות ייעודי בשמכם. חשבון השירות הזה משמש כזהות שמשמשת לחיבור למקור הנתונים החיצוני.
כברירת מחדל, לחשבון השירות הזה אין הרשאות. אתם צריכים להעניק לחשבון השירות הזה באופן מפורש את תפקידי ה-IAM הנדרשים בקטגוריות Cloud Storage שמכילות את הנתונים שלכם. אתם יכולים להשתמש בחיבור קיים ל-BigQuery או ליצור חיבור חדש באותו מיקום שבו נמצאת קטגוריית Cloud Storage שלכם. מידע נוסף על שיתוף חיבורים זמין במאמר שיתוף חיבור עם משתמשים.
כדי לוודא שלחשבון השירות של חיבור BigQuery (אפשר לאחזר את המזהה מהקטע פרטי החיבור בפרטי החיבור) יש את ההרשאות הנדרשות לקריאת טבלאות אובייקטים ולהפעלת הסקה, צריך לבקש מהאדמין להקצות לחשבון השירות של חיבור BigQuery (אפשר לאחזר את המזהה מהקטע פרטי החיבור בפרטי החיבור) את תפקידי ה-IAM הבאים:
-
הכול:
- צפייה באובייקט אחסון (
roles/storage.objectViewer) בקטגוריה שמכילה נתונים לא מובְנים - משתמש Vertex AI (
roles/aiplatform.user) בפרויקט
- צפייה באובייקט אחסון (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לקריאת טבלאות של אובייקטים ולהפעלת הסקה. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי לקרוא טבלאות של אובייקטים ולהריץ הסקה, נדרשות ההרשאות הבאות:
-
הכול:
-
storage.buckets.getבדלי שמכיל נתונים לא מובנים -
storage.objects.getבדלי שמכיל נתונים לא מובנים -
aiplatform.endpoints.predictבפרויקט
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של חיבור BigQuery (אפשר לאחזר את המזהה מהקטע פרטי החיבור בפרטי החיבור) את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
תפקידים והרשאות של חשבון שירות להרצת צינור עיבוד נתונים (אופציונלי)
אם תבחרו לחלץ את הנתונים שהוסקו באמצעות צינור אוטומטי לעיבוד נתונים, תצטרכו ליצור או לספק חשבון שירות ייעודי להפעלת הצינור. חשבון השירות הזה משמש כזהות שמאמתת ומריצה את משימות חילוץ הנתונים והניתוח ברקע ב-BigQuery. בנוסף, צריך להעניק לחשבון השירות שמוגדר כברירת מחדל ב-Dataform הרשאה להתחזות לחשבון השירות הזה של ההפעלה.
כדי לוודא שלחשבון השירות של צינור העיבוד יש את ההרשאות הנדרשות לחילוץ הישויות והקשרים המשוערים באמצעות צינור עיבוד, צריך לבקש מהאדמין להקצות לחשבון השירות של צינור העיבוד את תפקידי ה-IAM הבאים בפרויקט:
-
הכול:
- עריכה של נתוני BigQuery (
roles/bigquery.dataEditor) - BigQuery Job User (
roles/bigquery.jobUser) - BigQuery User (
roles/bigquery.user) - משתמש Vertex AI (
roles/aiplatform.user)
- עריכה של נתוני BigQuery (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לחילוץ הישויות והקשרים המשוערים באמצעות צינור. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי לחלץ את הישויות והקשרים שהמערכת הסיקה באמצעות צינור, נדרשות ההרשאות הבאות:
-
הכול:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.get -
bigquery.tables.getData -
bigquery.jobs.create -
aiplatform.endpoints.predict
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של הפעלת צינור הנתונים את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
כדי לוודא שלחשבון השירות שמוגדר כברירת מחדל ב-Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) יש את ההרשאות שנדרשות כדי להתחזות לחשבון השירות של הפעלת צינורות, צריך לבקש מהאדמין להקצות לחשבון השירות שמוגדר כברירת מחדל ב-Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) את תפקידי ה-IAM הבאים בחשבון השירות של הפעלת צינורות:
-
הכל:
יצירת אסימונים בחשבון שירות (
roles/iam.serviceAccountTokenCreator)
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות כדי להתחזות לחשבון השירות של צינור עיבוד הנתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי להתחזות לחשבון השירות של צינור עיבוד הנתונים, צריך את ההרשאות הבאות:
-
הכול:
iam.serviceAccounts.getAccessToken
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות שמוגדר כברירת מחדל ב-Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
הכנת טבלת האובייקטים
סריקה של פרופיל נתונים לנתונים לא מובנים פועלת ישירות על טבלת אובייקטים קיימת ב-BigQuery. לפני שיוצרים את הסריקה, צריך לוודא שהנתונים הלא מובנים (כמו קובצי PDF) מאוחסנים בדלי ב-Cloud Storage, ושיצרתם טבלת אובייקטים תואמת ב-BigQuery מעל הדלי הזה באמצעות חיבור למשאב ב-Cloud.
מוודאים שלכם ולחשבון השירות של Knowledge Catalog יש את התפקיד BigQuery Connection User (roles/bigquery.connectionUser) בחיבור שבו משתמשת טבלת האובייקטים.
מידע נוסף על יצירת טבלאות אובייקטים והגדרת החיבור הנדרש זמין במאמר יצירת טבלאות אובייקטים.
יצירת סריקה של פרופיל נתונים לנתונים לא מובנים
כדי לחלץ תובנות סמנטיות מטבלת האובייקטים, צריך ליצור סריקה של פרופיל נתונים לנתונים לא מובְנים (UnstructuredDataProfileSpec). הסריקה הזו משתמשת במודלים של Vertex AI Gemini 2.5 Pro כדי לנתח את הקבצים הלא מובְנים שאליהם יש הפניה בטבלת האובייקטים, וליצור מטא-נתונים, סכימות ויחסים משוערים.
בגרסה הראשונית הזו, אפשר ליצור סריקות רק באמצעות API בארכיטקטורת REST.
כדי ליצור סריקת פרופיל נתונים לנתונים לא מובנים באמצעות API בארכיטקטורת REST, משתמשים ב-method dataScans.create עם unstructuredDataProfileSpec.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN { "description": "Data profile scan for unstructured data", "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "unstructuredDataProfileSpec": { "customizedPrompt": "", "graphProfilePublishingEnabled": false } }
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: המזהה של הפרויקט ב- Google Cloud. -
LOCATION: האזור (צריך לתמוך ב-Gemini 2.5 Pro). Google Cloud -
DATASCAN: השם של סריקת פרופיל הנתונים. -
DATASET_IDו-TABLE_ID: שם מערך הנתונים ושם טבלת האובייקטים ב-BigQuery.
פרמטרים של מפרט סריקת פרופיל נתונים
customizedPrompt: אופציונלי. הנחיה בשפה טבעית שמורה ל-Gemini על ישויות ספציפיות או על הקשר של תחום מסוים לשליפה (לדוגמה,Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). כברירת מחדל, זהו מחרוזת ריקה (""). יש מגבלה על האורך המקסימלי של הנחיות מותאמות אישית.
graphProfilePublishingEnabled: אופציונלי. האם לפרסם באופן אוטומטי את פרופיל הגרף המשוער בקטלוג לאחר השלמת הסריקה. כברירת מחדל, הערך הואfalse.
Knowledge Catalog מריץ את סריקת פרופיל הנתונים ומעשיר את רשומת הקטלוג במטא-נתונים שנוצרו על ידי AI. בדרך כלל התהליך נמשך כמה דקות במערכי נתונים רגילים.
דוגמה: חילוץ תנאי חוזה מקובצי PDF של מוכרים
בדוגמה הבאה מוצגת בקשת API בארכיטקטורת REST של חברת קמעונאות לדוגמה, שיוצרת סריקת פרופיל נתונים (seller-contracts-scan) כדי לנתח קובצי PDF של הסכמי מוֹכרים שמאוחסנים בטבלת אובייקטים (seller_agreements_obj_table). הבקשה משתמשת בהנחיה מותאמת אישית כדי להנחות את Gemini לחלץ מונחים עסקיים ספציפיים, כמו שיעורי עמלות ותנאי תשלום:
POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
"description": "Data profile scan for seller PDF agreements",
"data": {
"resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
},
"executionSpec": {
"trigger": {
"onDemand": {}
}
},
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
}
}
הפעלת סריקת פרופיל נתונים
אם הגדרתם את הסריקה של פרופיל הנתונים כך שתפעל לפי דרישה, תצטרכו להפעיל את הסריקה באופן ידני כדי לנתח את הנתונים הלא מובנים.
כדי להריץ סריקה של פרופיל נתונים לפי דרישה באמצעות API בארכיטקטורת REST, משתמשים ב-method dataScans.run:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: המזהה של הפרויקט ב- Google Cloud. -
LOCATION: האזור שבו נמצאת סריקת פרופיל הנתונים. Google Cloud -
DATASCAN: השם של סריקת פרופיל הנתונים.
עיון בתוצאות של סריקת פרופיל נתונים
אחרי שהסריקה של פרופיל הנתונים מסתיימת, Knowledge Catalog יוצר פרופיל גרף שמכיל את הסכימות שהוסקו לגבי ישויות וקשרים. אפשר לעיין בתוצאות האלה באמצעות מסוף Google Cloud או ה-API בארכיטקטורת REST.
המסוף
אם הפעלתם פרסום של פרופיל גרף בקטלוג (graphProfilePublishingEnabled: true), תוכלו לראות את טבלת האובייקטים ואת הגרפים הסמנטיים שהוסקו ב-Knowledge Catalog:
נכנסים לדף Search בקטלוג הידע במסוף Google Cloud .
מדביקים את הטבלה של האובייקט שהמזהה שלה הוגדר בסריקה ומחפשים אותה.
בתוצאות החיפוש, לוחצים על הטבלה כדי לפתוח את דף הערך שלה.
בכרטיסייה Details, בקטע Aspects, מוודאים שההיבט Graph Profile (
dataplex-types.global.graph-profile) מופיע. ההיבט הזה מכיל את הסכימות המשוערות של ישויות וקשרים.לוחצים על הכרטיסייה תובנות. בכרטיסייה תובנות מוצג המידע הבא:
חילוץ סמנטי. באנר מציין שזוהו ישויות וקשרים שאפשר לחלץ. הוא כולל לחצן Extract (חילוץ) כדי להפוך את הנתונים למוחשיים באמצעות SQL או פריסת צינור עיבוד נתונים.
תיאור: סיכום שנוצר על ידי AI וקריא לבני אדם מסביר את התוכן של הנתונים הלא מובנים. הוא מתאר את הצמתים הראשיים (ישויות) שזוהו ואת המיפוי שלהם אחד לשני באמצעות קשתות (קשרים).
צינורות. רשימה של צינורות לחילוץ נתונים שקשורים למשאב הזה. אפשר לראות את שם התצוגה, האזור, זמן היצירה והמשתמש שיצר את הצינור.
ישויות וקשרים שנלמדו. גרף אינטראקטיבי ויזואלי שמציג את המבנה הסמנטי שהתגלה בנתונים הלא מובנים. הגרף מכיל צמתים שמייצגים ישויות נפרדות, לדוגמה,
Recipeו-Ingredient, וקשתות שמייצגות את הקשרים ביניהן, לדוגמה,HasAllergenStatus. אפשר להשתמש במקרא כדי לסנן ולחקור צמתים וקצוות ספציפיים.ישויות. רשימה מפורטת של הישויות הראשיות שזוהו. אפשר להרחיב כל ישות כדי לראות את התיאור שלה שנוצר על ידי AI ואת הסכימה המשוערת שלה, שכוללת שמות שדות, סוגי נתונים ותיאורי שדות.
קשרים. רשימה מפורטת של הקשרים שזוהו בין ישויות. אפשר להרחיב כל קשר כדי לראות את התיאור שלו ואת הסכימה שמגדירה איך הישויות ממופות אחת לשנייה.
REST
כדי לאחזר את התוצאות של פרופיל הגרף ישירות מהרצת משימת הסריקה באמצעות API בארכיטקטורת REST, משתמשים ב-method dataScans.jobs.get עם view=full:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: המזהה של הפרויקט ב- Google Cloud. -
LOCATION: האזור שבו נמצאת סריקת פרופיל הנתונים. Google Cloud -
DATASCAN: השם של סריקת פרופיל הנתונים. -
JOB_ID: המזהה הייחודי של ההפעלה של משימת הסריקה של פרופיל הנתונים.
בדוגמה הבאה מוצגת התגובה למשימה seller-contracts-scan, כולל unstructuredDataProfileResult ו-graphProfile:
{
"name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
"uid": "123e4567-e89b-12d3-a456-426614174000",
"startTime": "2026-06-08T19:12:03.102Z",
"endTime": "2026-06-08T19:15:28.415Z",
"state": "SUCCEEDED",
"type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
},
"unstructuredDataProfileResult": {
"description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
"graphProfile": {
"nodeTypes": [
{
"name": "Seller Entity",
"description": "Discovered business entity representing the seller.",
"fields": [
{
"name": "seller_name",
"dataType": "STRING",
"description": "The legal name of the seller.",
"mode": "NULLABLE"
},
{
"name": "address",
"dataType": "STRING",
"description": "The physical or mailing address of the seller.",
"mode": "NULLABLE"
}
]
},
{
"name": "Commission Rate",
"description": "Discovered agreed commission rate terms.",
"fields": [
{
"name": "rate_percentage",
"dataType": "NUMBER",
"description": "The agreed commission percentage.",
"mode": "NULLABLE"
}
]
},
{
"name": "Payment Terms",
"description": "Discovered payment schedule and terms.",
"fields": [
{
"name": "billing_cycle",
"dataType": "STRING",
"description": "The agreed billing frequency or payment schedule.",
"mode": "NULLABLE"
}
]
}
],
"edgeTypes": [
{
"name": "AgreedCommission",
"description": "Defines the commission rate agreed by the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Commission Rate"
},
{
"name": "HasPaymentTerms",
"description": "Defines the payment terms applicable to the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Payment Terms"
}
]
}
}
}
עדכון התובנות המשוערות
תובנות שהמערכת הסיקה נשמרות בקטלוג של Knowledge Catalog כהיבט שמצורף לטבלת האובייקט. אפשר לעדכן את התובנות האלה באופן ידני באמצעות ה-API בארכיטקטורת REST.
REST
כדי לעדכן תובנות שהוסקו באמצעות API בארכיטקטורת REST, צריך לבצע את הפעולות הבאות:
יוצרים קובץ בשם
payload.jsonומוסיפים את תוכן ה-JSON של ההיבט שרוצים לעדכן. לדוגמה:{ "aspects": { "dataplex-types.global.graph-profile": { "data": { "nodeTypes": [], "edgeTypes": [] } } } }מריצים את הפקודה הבאה בטרמינל:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @payload.json \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט, לדוגמהexample-project -
LOCATION: המיקום של הרשומה, לדוגמהus-central1 -
ENTRY_GROUP_ID: מזהה קבוצת הרשומות – למשל,example-entry-group(עבור טבלאות של אובייקטים ב-BigQuery, משתמשים ב-@bigquery) -
ENTRY_ID: המזהה של הרשומה, לדוגמה,example-entry(אפשר לאחזר אותו מהכרטיסייה סקירה כללית בדף הפרטים של הרשומה במסוף Google Cloud )
-
למידע נוסף ולדוגמאות קוד בשפות אחרות, אפשר לעיין במאמר עדכון מאפיין של רשומה.
שליפת נתונים ל-BigQuery
אפשר להפוך את הישויות והקשרים שהמערכת הסיקה לטבלאות או לתצוגות מפורטות מובנות ב-BigQuery באמצעות SQL או צינור עיבוד נתונים אוטומטי.
נכנסים לדף Search בקטלוג הידע במסוף Google Cloud .
מחפשים את טבלת האובייקטים שנוצרה על ידי הסריקה.
בתוצאות החיפוש, לוחצים על הטבלה כדי לפתוח את דף הערך שלה.
לוחצים על הכרטיסייה תובנות.
בכרטיסייה תובנות, לוחצים על חילוץ.
בוחרים אחת מהשיטות הבאות בהתאם לצרכים האנליטיים ולגודל הנתונים הלא מובנים:
חילוץ באמצעות SQL: בוחרים באפשרות הזו לניתוח מהיר ואד-הוק, למערכי נתונים קטנים עד בינוניים, או כשרוצים להשתמש במודלים מרוחקים של BigQuery בלי להסתמך על תשתית.
כדי לחלץ נתונים באמצעות SQL, פועלים לפי השלבים הבאים:
- בוחרים באפשרות Extract by SQL (חילוץ באמצעות SQL).
- בחלונית Extract with SQL, בוחרים מערך נתונים ליעד. מערך הנתונים צריך להיות באותו מיקום כמו המקור.
- לוחצים על חילוץ.
- בעורך של BigQuery, תיפתח שאילתה עם נתונים שכבר הוזנו מראש, שמשתמשת בפונקציה
ML.PROCESS_DOCUMENT. מריצים את השאילתה כדי ליצור טבלאות ותצוגות רגילות.
מידע נוסף על שימוש ב-SQL כדי לחלץ תובנות ממסמכים זמין במאמר בנושא עיבוד מסמכים באמצעות הפונקציה
ML.PROCESS_DOCUMENT.חילוץ באמצעות צינור: בוחרים באפשרות הזו לעיבוד נתונים בהיקף נרחב, או כשנדרשת לוגיקה חזקה לניסיון חוזר, לטיפול בשגיאות ולתיאום אוטומטי כדי לטפל בכמויות גדולות של מסמכים.
כדי לבצע חילוץ באמצעות צינור:
- בוחרים באפשרות Extract by pipeline (חילוץ לפי צינור).
- בחלונית Extract with pipeline, מזינים שם תצוגה לצינור.
- בחירת אזור.
- בוחרים קבוצת נתונים ליעד. מערך הנתונים צריך להיות באותו מיקום כמו המקור.
- לוחצים על חילוץ. הפעולה הזו יוצרת צינור BigQuery שמארגן את מימוש הנתונים באמצעות Dataform.
- מריצים את כל המשימות בצינור כדי ליצור תצוגות מובנות של צמתים וקשתות.
מידע נוסף על הפעלת תהליכי עבודה של נתונים זמין במאמר מבוא ל-Dataform.
אחרי שמחלצים את התובנות הסמנטיות ומממשים אותן ב-BigQuery, אפשר לבצע את המשימות הבאות:
שליחת שאילתות לנתונים המובְנים.מריצים שאילתות SQL סטנדרטיות על הטבלאות החדשות שנוצרו כדי לנתח את הישויות והקשרים שחולצו.
שילוב עם נתונים קיימים. אפשר לשלב את התובנות האיכותיות שחולצו מהקבצים הלא מובנים עם מערכי נתונים מובנים קיימים ב-BigQuery (למשל, שילוב של נתוני חשבוניות מנותחים עם טבלאות הנהלת החשבונות).
עיון בתובנות מנתונים אפשר להשתמש בתכונה תובנות לגבי נתונים ב-BigQuery Studio כדי ליצור באופן אוטומטי שאלות בשפה טבעית ושאילתות SQL עבור נכסים מובְנים חדשים.
ניתוח באמצעות Gemini. אתם יכולים להשתמש ב-Gemini ב-BigQuery כדי לבצע ניתוח שיחות, לסכם מגמות או ליצור לוחות בקרה ב-Data Studio על סמך הנתונים שחולצו.