שימוש בסריקת גילוי לנתונים לא מובנים

סריקות של פרופילי נתונים לנתונים לא מובְנים משתמשות במודלים של Vertex AI Gemini 2.5 Pro במהלך סריקת גילוי ב-Cloud Storage כדי להפוך קבצים גולמיים ולא מובְנים ב-Cloud Storage (כמו קובצי PDF) לנכסים מובְנים שאפשר להריץ עליהם שאילתות ב-BigQuery. תהליך העבודה האוטומטי הזה מיועד למשתמשים שמתחילים עם קבצים גולמיים ב-Cloud Storage. אם כבר יש לכם טבלאות של אובייקטים ב-BigQuery או שאתם רוצים להנחות את החילוץ באמצעות הנחיה מותאמת אישית, תוכלו לעיין במאמר בנושא שימוש בפרופיל נתונים לנתונים לא מובְנים.

במאמר הזה מוסבר איך להגדיר את ההרשאות הנדרשות, להכין את הקבצים הלא מובנים, ליצור סריקת גילוי ב-Cloud Storage עם הפעלת הסקה סמנטית באמצעות API בארכיטקטורת REST, להציג את התובנות שנוצרו על ידי AI, לערוך פרופילים של גרפים ולחלץ את הנתונים ל-BigQuery.

לפני שמתחילים

לפני שיוצרים סריקה לגילוי, חשוב לוודא שיש לכם את ההרשאות הנדרשות ושהפעלתם את ממשקי ה-API.

הפעלת ממשקי ה-API

מפעילים את ממשקי ה-API הבאים בפרויקט:

  • dataplex.googleapis.com
  • bigquery.googleapis.com
  • aiplatform.googleapis.com (Vertex AI)

תפקידים שנדרשים להפעלת ממשקי API

כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

הפעלת ממשקי ה-API

תפקידים והרשאות נדרשים

כדי להגדיר ולהפעיל סריקות של פרופיל נתונים לנתונים לא מובנים, צריך לעמוד בדרישות ההרשאות הבסיסיות לסריקת גילוי, ואז להעניק תפקידים נוספים להסקת מסקנות סמנטיות בכמה סוכני שירות.

תפקידים בסריקת גילוי בסיסית

מוודאים שלכם ולחשבונות השירות שבהם נעשה שימוש ב-Knowledge Catalog יש את הרשאות הבסיס שנדרשות לסריקת גילוי רגילה. רשימה מלאה זמינה במאמר גילוי וקטלוג של נתונים ב-Cloud Storage.

תפקידים נוספים להסקת מסקנות סמנטית

בנוסף לתפקידי הגילוי הבסיסיים, צריך לוודא שלכם ולחשבונות השירות יש את התפקידים הנוספים הבאים ב-IAM (המערכת לניהול הזהויות והרשאות הגישה).

סיכום של זהויות ותפקידים נוספים

סוג הזהות הפורמט האופייני של חשבון המשתמש התפקידים שצריך ב-IAM המטרה העיקרית
משתמש קצה חשבון המשתמש שלכם ב- Google Cloud
  • עריכה של סריקות נתונים ב-Dataplex
  • Dataplex Catalog Editor
  • עריכה של נתוני BigQuery
  • שימוש במשימות BigQuery
אתם משתמשים בתפקידים הנוספים האלה כדי להגדיר סריקות, להציג תוצאות שנוצרו על ידי AI, לאצור פרופילים של תרשימים ולהפעיל את חילוץ הנתונים הסופי.
סוכן הגילוי של Dataplex Universal Catalog service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com
  • משתמש Vertex AI
  • שימוש במשימות BigQuery
  • צפייה בנתוני BigQuery
סוכן השירות הזה שמנוהל על ידי Google משתמש בתפקידים הנוספים האלה כדי להתקשר אל Vertex AI וליצור סכימות ומטא-נתונים משוערים.
חשבון שירות לחיבור BigQuery זהות ייחודית שמשויכת לחיבור שלכם (לדוגמה, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com)
  • צפייה באובייקטים של אחסון (בקטגוריית המקור)
  • משתמש Vertex AI (בפרויקט)
הוא מקשר את BigQuery לאחסון חיצוני, ומאפשר ל-BigQuery לקרוא את הקבצים הגולמיים, ליצור טבלאות אובייקטים ולהריץ הסקת מסקנות מבוססת-AI בלי לחשוף את פרטי הכניסה האישיים של המשתמש.
חשבון שירות להפעלת צינור עיבוד נתונים (אופציונלי) חשבון שירות שמנוהל על ידי משתמש
  • עריכה של נתוני BigQuery
  • שימוש במשימות BigQuery
  • משתמש BigQuery
  • משתמש Vertex AI
אם תבחרו לחלץ נתונים באמצעות צינור נתונים אוטומטי, הזהות הזו תריץ את משימות הרקע כדי להפוך את הישויות שנוצרו על ידי AI לטבלאות ב-BigQuery.
חשבון השירות שמוגדר כברירת מחדל ב-Dataform (אופציונלי) service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com
  • יצירת אסימונים בחשבון שירות (התפקיד שמוקצה לחשבון השירות של שירות ההפעלה של צינור עיבוד הנתונים)
כשמשתמשים בשיטת החילוץ של צינור עיבוד הנתונים, Dataform דורש הרשאה להתחזות לחשבון השירות של שירות הפעלת צינור עיבוד הנתונים כדי לתזמן את תהליך העבודה.

תפקידים והרשאות של משתמשי קצה

כדי לוודא שלחשבון המשתמש שלכם יש את ההרשאות הנדרשות ליצירת סריקות, להצגת תובנות, לעריכת פרופילים של גרפים ולחילוץ נתונים, צריך לבקש מהאדמין להקצות לחשבון המשתמש שלכם את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירת סריקות, להצגת תובנות, לעריכת פרופילים של גרפים ולחילוץ נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור סריקות, לצפות בתובנות, לאצור פרופילים של גרפים ולחלץ נתונים, צריך את ההרשאות הבאות:

  • DataScans:
    • dataplex.datascans.create
    • dataplex.datascans.get
    • dataplex.datascans.getData
    • dataplex.datascans.list
    • dataplex.datascans.update
  • חילוץ נתונים:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.getData
    • bigquery.jobs.create

יכול להיות שהאדמין יוכל גם להעניק לחשבון המשתמש שלכם את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים והרשאות של סוכן שירות לגילוי נתונים ב-Dataplex

הסוכן של שירות הגילוי של Dataplex הוא סוכן שירות שצריך גישה כדי להריץ סריקות ולבצע הסקה סמנטית באמצעות Vertex AI.

כדי לוודא שלסוכן השירות של Dataplex Discovery (בדרך כלל service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) יש את ההרשאות הנדרשות להרצת סריקות ולביצוע הסקה סמנטית באמצעות Vertex AI, צריך לבקש מהאדמין להקצות לסוכן השירות של Dataplex Discovery (בדרך כלל service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להפעלת סריקות ולביצוע הסקה סמנטית באמצעות Vertex AI. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי להריץ סריקות ולבצע הסקה סמנטית באמצעות Vertex AI, נדרשות ההרשאות הבאות:

  • הכול:
    • aiplatform.endpoints.predict
    • bigquery.datasets.create
    • bigquery.datasets.get
    • bigquery.tables.get
    • bigquery.tables.getData
    • storage.buckets.get
    • storage.objects.get
    • storage.objects.list

יכול להיות שהאדמין יוכל גם להעניק לסוכן השירות של Dataplex (בדרך כלל service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים והרשאות של חשבון שירות לחיבור BigQuery

קישור למשאבים ב-Cloud ב-BigQuery מאפשר ל-Knowledge Catalog לגשת לנתונים לא מובנים שמאוחסנים ב-Cloud Storage. כשיוצרים חיבור, BigQuery יוצר באופן אוטומטי חשבון שירות ייעודי בשמכם. חשבון השירות הזה משמש כזהות שמשמשת לחיבור למקור הנתונים החיצוני.

כברירת מחדל, לחשבון השירות הזה אין הרשאות. אתם צריכים להעניק לחשבון השירות הזה באופן מפורש את תפקידי ה-IAM הנדרשים בקטגוריות Cloud Storage שמכילות את הנתונים שלכם. אתם יכולים להשתמש בחיבור קיים ל-BigQuery או ליצור חיבור חדש באותו מיקום שבו נמצאת קטגוריית Cloud Storage שלכם. מידע נוסף על שיתוף חיבורים זמין במאמר שיתוף חיבור עם משתמשים.

כדי לוודא שלחשבון השירות של חיבור BigQuery (אפשר לאחזר את המזהה מהקטע פרטי החיבור בפרטי החיבור) יש את ההרשאות הנדרשות לקריאת טבלאות אובייקטים ולהפעלת הסקה, צריך לבקש מהאדמין להקצות לחשבון השירות של חיבור BigQuery (אפשר לאחזר את המזהה מהקטע פרטי החיבור בפרטי החיבור) את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לקריאת טבלאות של אובייקטים ולהפעלת הסקה. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי לקרוא טבלאות של אובייקטים ולהריץ הסקה, נדרשות ההרשאות הבאות:

  • הכול:
    • storage.buckets.get בדלי שמכיל נתונים לא מובנים
    • storage.objects.get בדלי שמכיל נתונים לא מובנים
    • aiplatform.endpoints.predict בפרויקט

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של חיבור BigQuery (אפשר לאחזר את המזהה מהקטע פרטי החיבור בפרטי החיבור) את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים והרשאות של חשבון שירות להרצת צינור עיבוד נתונים (אופציונלי)

אם תבחרו לחלץ את הנתונים שהוסקו באמצעות צינור אוטומטי לעיבוד נתונים, תצטרכו ליצור או לספק חשבון שירות ייעודי להפעלת הצינור. חשבון השירות הזה משמש כזהות שמאמתת ומריצה את משימות חילוץ הנתונים והניתוח ברקע ב-BigQuery. בנוסף, צריך להעניק לחשבון השירות שמוגדר כברירת מחדל ב-Dataform הרשאה להתחזות לחשבון השירות הזה של ההפעלה.

כדי לוודא שלחשבון השירות של צינור העיבוד יש את ההרשאות הנדרשות לחילוץ הישויות והקשרים המשוערים באמצעות צינור עיבוד, צריך לבקש מהאדמין להקצות לחשבון השירות של צינור העיבוד את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לחילוץ הישויות והקשרים המשוערים באמצעות צינור. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי לחלץ את הישויות והקשרים שהמערכת הסיקה באמצעות צינור, נדרשות ההרשאות הבאות:

  • הכול:
    • bigquery.tables.create
    • bigquery.tables.update
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.jobs.create
    • aiplatform.endpoints.predict

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של הפעלת צינור הנתונים את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

כדי לוודא שלחשבון השירות שמוגדר כברירת מחדל ב-Dataform‏ (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) יש את ההרשאות שנדרשות כדי להתחזות לחשבון השירות של הפעלת צינורות, צריך לבקש מהאדמין להקצות לחשבון השירות שמוגדר כברירת מחדל ב-Dataform‏ (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) את תפקידי ה-IAM הבאים בחשבון השירות של הפעלת צינורות:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות כדי להתחזות לחשבון השירות של צינור עיבוד הנתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי להתחזות לחשבון השירות של צינור עיבוד הנתונים, צריך את ההרשאות הבאות:

  • הכול: iam.serviceAccounts.getAccessToken

יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות שמוגדר כברירת מחדל ב-Dataform‏ (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.


הכנת נתונים לא מובנים

לפני שמריצים סריקת גילוי, צריך להעלות את הנתונים הלא מובנים לקטגוריה של Cloud Storage. סריקות של פרופיל נתונים לנתונים לא מובְנים מותאמות לניתוח מסמכי PDF.

מידע נוסף על אחסון וניהול קבצים ב-Cloud Storage זמין במאמר העלאת אובייקטים.

יצירת קישור למשאבים ב-Cloud

כדי לפרסם את תוצאות הסריקה לגילוי כטבלת אובייקטים ב-BigQuery, צריך ליצור חיבור למשאב ב-Cloud ולהעניק לחשבון השירות שלו גישה לנתונים הלא מובְנים ב-Cloud Storage.

  1. יצירת קישור למשאבים ב-Cloud.
  2. נותנים לחשבון השירות שמשויך לחיבור את התפקיד 'צפייה באובייקט אחסון' (roles/storage.objectViewer) בקטגוריה של Cloud Storage שמכילה את הנתונים הלא מובנים. מידע נוסף מופיע במאמר הענקת גישה לחשבון השירות.

יצירת סריקת גילוי לנתונים לא מובנים

כדי לחלץ תובנות סמנטיות מנתונים לא מובנים, קודם צריך ליצור סריקת גילוי ב-Cloud Storage. הסריקה הזו מאתרת באופן אוטומטי את הקבצים הלא מובנים שלכם ב-Cloud Storage ומקטלגת אותם בטבלת אובייקטים. אם מפעילים את ההסקה הסמנטית במהלך התהליך הזה, Knowledge Catalog משתמש במודלים של Vertex AI Gemini 2.5 Pro כדי לנתח את הקבצים וליצור מטא-נתונים, סכימות ויחסים מוּסקים.

אפשר ליצור סריקת גילוי של Cloud Storage עם הסקת משמעות סמנטית מופעלת באמצעות Google Cloud המסוף או ה-API בארכיטקטורת REST.

המסוף

  1. נכנסים לדף Metadata curation במסוף Google Cloud .

    מעבר אל 'ניהול מטא-נתונים'

  2. בכרטיסייה Cloud Storage discovery, לוחצים על Create.

  3. מזינים שם לסריקה.

  4. כדי לבחור את קטגוריה של Cloud Storage שמכילה את הנתונים הלא מובנים, לוחצים על Browse (עיון).

  5. בקטע Unstructured data options (אפשרויות לנתונים לא מובְנים), מסמנים את התיבה Enable semantic inference (הפעלת הסקה סמנטית).

  6. בשדה מזהה החיבור, מציינים את החיבור ל-BigQuery שמשמש לגישה לקבצים.

    סריקת הגילוי מקטלגת באופן אוטומטי נתונים לא מובנים ב-BigQuery על ידי יצירת טבלאות אובייקטים. מכיוון שטבלאות אובייקטים מפרידות בצורה מאובטחת בין פרטי הגישה לנתונים לבין המשתמש שמבצע את השאילתות, נדרש חיבור כדי לבצע אימות ב-Cloud Storage ולקרוא את הקבצים.

  7. לוחצים על הפעלה מיידית (לסריקה לפי דרישה) או על יצירה (לסריקה מתוזמנת).

    פרטים על כל ההגדרות הזמינות מופיעים במאמר גילוי נתונים ב-Cloud Storage וקטלוג שלהם.

ב-Knowledge Catalog נוצרת טבלת אובייקטים והערך בקטלוג מועשר במטא-נתונים שנוצרו על ידי AI. בדרך כלל התהליך הזה נמשך כמה דקות למערכי נתונים רגילים.

REST

כדי ליצור סריקת גילוי ב-Cloud Storage עם הפעלת הסקה סמנטית באמצעות API בארכיטקטורת REST, משתמשים ב-method‏ dataScans.create עם dataDiscoverySpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
"description": "Cloud Storage discovery scan with semantic inference",
"data": {
"resource": "//storage.googleapis.com/BUCKET_NAME"
},
"executionSpec": {
"trigger": {
  "onDemand": {}
}
},
"dataDiscoverySpec": {
"bigqueryPublishingConfig": {
  "tableType": "OBJECT_TABLE",
  "connection": "projects/PROJECT_ID/locations/LOCATION/connections/CONNECTION_ID"
},
"unstructuredDataEventsConfig": {
  "enabled": true
}
}
}

מחליפים את מה שכתוב בשדות הבאים:

  • PROJECT_ID: המזהה של הפרויקט ב- Google Cloud.
  • LOCATION: האזור (צריך לתמוך ב-Gemini ‎2.5 Pro). Google Cloud
  • DATASCAN: השם של סריקת הגילוי.
  • BUCKET_NAME: קטגוריית Cloud Storage שמכילה נתונים לא מובנים.
  • CONNECTION_ID: מזהה החיבור ל-BigQuery.

הפעלת סריקת הגילוי

אם הגדרתם את סריקת הגילוי להפעלה לפי דרישה, אתם צריכים להפעיל את הסריקה באופן ידני כדי לאתר את הנתונים הלא מובנים וליצור תובנות.

אפשר להפעיל סריקת גילוי באמצעות מסוף Google Cloud או API בארכיטקטורת REST.

המסוף

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שרוצים להריץ.

  4. לוחצים על הפעלה מיידית.

REST

כדי להריץ סריקת גילוי על פי דרישה באמצעות API בארכיטקטורת REST, משתמשים ב-method‏ dataScans.run:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

מחליפים את המשתנים הבאים:

  • PROJECT_ID: המזהה של הפרויקט ב- Google Cloud.
  • LOCATION: Google Cloud האזור שבו נמצא הסריקה של גילוי המשאבים.
  • DATASCAN: השם של סריקת הגילוי.

‫Knowledge Catalog מריץ את סריקת הגילוי, יוצר טבלת אובייקטים ומעשיר את רשומת הקטלוג במטא-נתונים שנוצרו על ידי AI. התהליך הזה בדרך כלל נמשך כמה דקות למערכי נתונים רגילים.

איתור טבלת האובייקטים

אחרי שהסריקה מסתיימת, ב-Knowledge Catalog נוצרת טבלה אחת או יותר של אובייקטים, והקטלוג מתמלא ברשומה תואמת שכוללת מטא-נתונים שנוצרו על ידי AI. אם הסריקה יוצרת כמה רשומות, לכל רשומה יש כרטיסייה משלה של תובנות. בכרטיסייה הזו אפשר לראות את תיאור הטבלה שנוצר אוטומטית, את הסכימות שהוסקו ואת הגרפים של הקשרים.

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה לדף BigQuery

  2. בתפריט הניווט, לוחצים על Governance > Metadata curation.

  3. בחלונית Cloud Storage discovery, לוחצים על סריקת הגילוי שהפעלתם לנתונים לא מובְנים.

    • בקטע פרטי הסריקה מוצגים פרטים על סריקת הגילוי.
    • בקטע סטטוס הסריקה מוצגות תוצאות הגילוי של משימת הסריקה האחרונה.
  4. לוחצים על הקישור מערך נתונים שפורסם.

  5. ברשימת הטבלאות שמוצגת למערך הנתונים ב-BigQuery, בוחרים את טבלת האובייקטים שנוצרה לסריקת נתוני הגילוי.

  6. מעתיקים את מזהה הטבלה. תצטרכו אותו בקטע הבא.

בדיקת תוצאות הסריקה של Discovery

אפשר לראות את טבלת האובייקטים ואת הגרפים הסמנטיים המשוערים שלה ב-Knowledge Catalog.

  1. במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.

    מעבר אל חיפוש

  2. מדביקים את מזהה טבלת האובייקט שבוחרים בשלב הקודם ומחפשים אותה.

  3. בתוצאות החיפוש, לוחצים על הטבלה כדי לפתוח את דף הערך שלה.

  4. בכרטיסייה Details, בקטע Aspects, מוודאים שההיבט Graph Profile (dataplex-types.global.graph-profile) מופיע. ההיבט הזה מכיל את הסכימות המשוערות של ישויות וקשרים.

  5. לוחצים על הכרטיסייה תובנות. בכרטיסייה תובנות מוצג המידע הבא:

    • חילוץ סמנטי. יופיע באנר שיציין שזוהו ישויות וקשרים שאפשר לחלץ. הוא כולל לחצן Extract (חילוץ) כדי להפוך את הנתונים למוחשיים באמצעות SQL או פריסת צינור עיבוד נתונים.

    • תיאור: סיכום שנוצר על ידי AI וקריא לבני אדם מסביר את התוכן של הנתונים הלא מובנים. הוא מתאר את הצמתים הראשיים (ישויות) שזוהו ואת המיפוי שלהם אחד לשני באמצעות קשתות (קשרים).

    • צינורות. רשימה של צינורות להפקת נתונים שכבר הופעלו ומשויכים למשאב הזה. אפשר לראות את השם המוצג, האזור, זמן היצירה והמשתמש שיצר את הצינור.

    • ישויות וקשרים שנלמדו. גרף אינטראקטיבי ויזואלי שמציג את המבנה הסמנטי של הנתונים הלא מובנים. הגרף מכיל צמתים שמייצגים ישויות נפרדות, למשל Recipe ו-Ingredient, וקשתות שמייצגות את הקשרים ביניהן, למשל HasAllergenStatus. אפשר להשתמש במקרא כדי לסנן ולבדוק צמתים וקשתות ספציפיים.

    • ישויות. רשימה מפורטת של הישויות הראשיות שזוהו. אפשר להרחיב כל ישות כדי לראות את התיאור שנוצר על ידי AI ואת הסכימה המשוערת שלה, שכוללת שמות שדות, סוגי נתונים ותיאורי שדות.

    • קשרים. רשימה מפורטת של הקשרים שזוהו בין ישויות. אפשר להרחיב כל קשר כדי לראות את התיאור שלו ואת הסכימה שמגדירה את המיפוי בין הישויות.

עדכון התובנות המשוערות

תובנות שהמערכת הסיקה נשמרות בקטלוג של Knowledge Catalog כהיבט שמצורף לטבלת האובייקט. אפשר לעדכן את התובנות האלה באופן ידני באמצעות ה-API בארכיטקטורת REST.

REST

כדי לעדכן תובנות שהוסקו באמצעות API בארכיטקטורת REST, צריך לבצע את הפעולות הבאות:

  1. יוצרים קובץ בשם payload.json ומוסיפים את תוכן ה-JSON של ההיבט שרוצים לעדכן. לדוגמה:

    {
      "aspects": {
        "dataplex-types.global.graph-profile": {
          "data": {
            "nodeTypes": [],
            "edgeTypes": []
          }
        }
      }
    }
    
  2. מריצים את הפקודה הבאה בטרמינל:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -d @payload.json \
    "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
    

    מחליפים את מה שכתוב בשדות הבאים:

    • PROJECT_ID: מזהה הפרויקט, לדוגמה example-project
    • LOCATION: המיקום של הרשומה, לדוגמה us-central1
    • ENTRY_GROUP_ID: מזהה קבוצת הרשומות – למשל, example-entry-group (עבור טבלאות של אובייקטים ב-BigQuery, משתמשים ב-@bigquery)
    • ENTRY_ID: המזהה של הרשומה, לדוגמה, example-entry (אפשר לאחזר אותו מהכרטיסייה סקירה כללית בדף הפרטים של הרשומה במסוף Google Cloud )

למידע נוסף ולדוגמאות קוד בשפות אחרות, אפשר לעיין במאמר עדכון מאפיין של רשומה.

שליפת נתונים ל-BigQuery

אפשר להפוך את הישויות והקשרים שהמערכת הסיקה לטבלאות או לתצוגות מפורטות מובנות ב-BigQuery באמצעות SQL או צינור עיבוד נתונים אוטומטי.

  1. נכנסים לדף Search בקטלוג הידע במסוף Google Cloud .

    מעבר אל חיפוש

  2. מחפשים את טבלת האובייקטים שנוצרה על ידי הסריקה.

  3. בתוצאות החיפוש, לוחצים על הטבלה כדי לפתוח את דף הערך שלה.

  4. לוחצים על הכרטיסייה תובנות.

  5. בכרטיסייה תובנות, לוחצים על חילוץ.

  6. בוחרים אחת מהשיטות הבאות בהתאם לצרכים האנליטיים ולגודל הנתונים הלא מובנים:

    • חילוץ באמצעות SQL: בוחרים באפשרות הזו לניתוח מהיר ואד-הוק, למערכי נתונים קטנים עד בינוניים, או כשרוצים להשתמש במודלים מרוחקים של BigQuery בלי להסתמך על תשתית.

      כדי לחלץ נתונים באמצעות SQL, פועלים לפי השלבים הבאים:

      1. בוחרים באפשרות Extract by SQL (חילוץ באמצעות SQL).
      2. בחלונית Extract with SQL, בוחרים מערך נתונים ליעד. מערך הנתונים צריך להיות באותו מיקום כמו המקור.
      3. לוחצים על חילוץ.
      4. בעורך של BigQuery, תיפתח שאילתה עם נתונים שכבר הוזנו מראש, שמשתמשת בפונקציה ML.PROCESS_DOCUMENT. מריצים את השאילתה כדי ליצור טבלאות ותצוגות רגילות.

      מידע נוסף על שימוש ב-SQL כדי לחלץ תובנות ממסמכים זמין במאמר בנושא עיבוד מסמכים באמצעות הפונקציה ML.PROCESS_DOCUMENT.

    • חילוץ באמצעות צינור: בוחרים באפשרות הזו לעיבוד נתונים בהיקף נרחב, או כשנדרשת לוגיקה חזקה לניסיון חוזר, לטיפול בשגיאות ולתיאום אוטומטי כדי לטפל בכמויות גדולות של מסמכים.

      כדי לבצע חילוץ באמצעות צינור:

      1. בוחרים באפשרות Extract by pipeline (חילוץ לפי צינור).
      2. בחלונית Extract with pipeline, מזינים שם תצוגה לצינור.
      3. בחירת אזור.
      4. בוחרים קבוצת נתונים ליעד. מערך הנתונים צריך להיות באותו מיקום כמו המקור.
      5. לוחצים על חילוץ. הפעולה הזו יוצרת צינור BigQuery שמארגן את מימוש הנתונים באמצעות Dataform.
      6. מריצים את כל המשימות בצינור כדי ליצור תצוגות מובנות של צמתים וקשתות.

      מידע נוסף על הפעלת תהליכי עבודה של נתונים זמין במאמר מבוא ל-Dataform.

אחרי שמחלצים את התובנות הסמנטיות ומממשים אותן ב-BigQuery, אפשר לבצע את המשימות הבאות:

  • שליחת שאילתות לנתונים המובְנים.מריצים שאילתות SQL סטנדרטיות על הטבלאות החדשות שנוצרו כדי לנתח את הישויות והקשרים שחולצו.

  • שילוב עם נתונים קיימים. אפשר לשלב את התובנות האיכותיות שחולצו מהקבצים הלא מובנים עם מערכי נתונים מובנים קיימים ב-BigQuery (למשל, שילוב של נתוני חשבוניות מנותחים עם טבלאות הנהלת החשבונות).

  • עיון בתובנות מנתונים אפשר להשתמש בתכונה תובנות לגבי נתונים ב-BigQuery Studio כדי ליצור באופן אוטומטי שאלות בשפה טבעית ושאילתות SQL עבור נכסים מובְנים חדשים.

  • ניתוח באמצעות Gemini. אתם יכולים להשתמש ב-Gemini ב-BigQuery כדי לבצע ניתוח שיחות, לסכם מגמות או ליצור לוחות בקרה ב-Data Studio על סמך הנתונים שחולצו.

המאמרים הבאים