יצירת תובנות לגבי מערך נתונים

במאמר הזה נסביר איך ליצור תובנות לגבי מערכי נתונים ב-BigQuery. תובנות לגבי מערך נתונים עוזרות לכם להבין את הקשרים בין הטבלאות במערך הנתונים באמצעות יצירת גרפים של קשרים ושאילתות בין טבלאות.

תובנות לגבי מערכי נתונים עוזרות לכם להאיץ את המחקר של מערכי נתונים עם כמה טבלאות. המערכת מזהה וממחישה באופן אוטומטי את הקשרים בין הטבלאות בתרשים, מזהה קשרים של מפתח ראשי ומפתח זר ומפיקה שאילתות לדוגמה בין טבלאות. התכונה הזו שימושית כדי להבין את מבנה הנתונים בלי להסתמך על תיעוד, לגלות קשרים בין טבלאות שמוגדרים בסכימה, מבוססים על שימוש או נלמדים על ידי AI, וליצור שאילתות מורכבות שמבצעות איחוד של כמה טבלאות.

סקירה כללית על תובנות לגבי טבלאות ומערכי נתונים

לפני שמתחילים

התובנות מנתונים נוצרות באמצעות Gemini ב-BigQuery. כדי להתחיל ליצור תובנות, קודם צריך להגדיר את Gemini ב-BigQuery.

הפעלת ממשקי ה-API

כדי להשתמש בתובנות לגבי נתונים, צריך להפעיל את ממשקי ה-API הבאים בפרויקט: Dataplex API,‏ BigQuery API ו-Gemini for Google Cloud API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

מידע נוסף על הפעלת Gemini for Google Cloud API זמין במאמר בנושא הפעלת Gemini for Google Cloud API בפרויקט. Google Cloud

השלמת סריקת פרופיל נתונים

כדי לשפר את איכות התובנות, כדאי ליצור תוצאות של פרופיל נתונים לטבלאות במערך הנתונים.

התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות ליצירה, לניהול ולאחזור של תובנות לגבי מערכי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

  • כדי ליצור, לנהל ולאחזר תובנות:
    • Dataplex DataScan Editor (roles/dataplex.dataScanEditor) או Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) בפרויקט
    • BigQuery Data Editor (roles/bigquery.dataEditor) בטבלאות
    • BigQuery User (roles/bigquery.user) או BigQuery Studio User (roles/bigquery.studioUser) בפרויקט.
  • כדי לראות את התובנות:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

כדי לראות בדיוק אילו הרשאות נדרשות ליצירת תובנות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

  • bigquery.datasets.get: קריאת מטא-נתונים של מערך נתונים
  • bigquery.jobs.create: יצירת משרות
  • bigquery.tables.get: אחזור מטא-נתונים של טבלה
  • bigquery.tables.getData: אחזור נתונים ומטא-נתונים של טבלה
  • dataplex.datascans.create: יצירת משאב DataScan
  • dataplex.datascans.get: קריאת מטא-נתונים של משאב DataScan
  • dataplex.datascans.getData: קריאת תוצאות ההרצה של DataScan
  • dataplex.datascans.run: הפעלת DataScan לפי דרישה

יצירת תובנות לגבי מערך נתונים

  1. במסוף Google Cloud , עוברים אל BigQuery Studio.

    כניסה ל-BigQuery Studio

  2. בחלונית Explorer, בוחרים את הפרויקט ואז את מערך הנתונים שרוצים ליצור לגביו תובנות.

  3. לוחצים על הכרטיסייה תובנות.

  4. לוחצים על יצירה.

    אם מערך הנתונים נמצא במספר אזורים, יכול להיות שתתבקשו לבחור אזור כדי ליצור תובנות. בוחרים אזור שמתאים לאזור הרב-אזורי שבו ייווצר סריקת התובנות.

    יחלפו כמה דקות עד שהתובנות יופיעו. האיכות של התובנות משתפרת אם בטבלאות במערך הנתונים יש תוצאות של פרופיל נתונים.

אחרי שהתובנות נוצרות, ב-BigQuery מוצגים תיאור של מערך הנתונים, גרף של קשרים, טבלה של קשרים ודוגמאות לשאילתות בין טבלאות.

הצגה ושמירה של תיאור מערך הנתונים

‫Gemini יוצר תיאור בשפה טבעית של מערך הנתונים, מסכם את סוגי הטבלאות שהוא מכיל ואת התחום העסקי שהוא מייצג. כדי לשמור את התיאור הזה במטא-נתונים של מערך הנתונים, לוחצים על שמירה בפרטים.

אפשר לערוך את התיאור לפני ששומרים את הפרטים.

עיון בגרף הקשרים

הגרף Relationships מספק ייצוג חזותי של הקשר בין הטבלאות במערך הנתונים. הוא מציג את 10 הטבלאות הכי מקושרות כצמתים, עם קווים שמייצגים את הקשרים ביניהן.

  • כדי לראות פרטים על קשר הגומלין, כמו העמודות שמקשרות בין שתי טבלאות, מעבירים את העכבר מעל הקצה שמקשר בין צמתי הטבלה.
  • כדי לשנות את סידור התרשים לטובת נראות טובה יותר, גוררים את הצמתים של הטבלה.

שימוש בטבלת הקשרים

בטבלת קשרי הגומלין מפורטים קשרי הגומלין שזוהו בפורמט טבלה. כל שורה מייצגת קשר בין שתי טבלאות, ומציגה את טבלת המקור והעמודה, ואת טבלת היעד והעמודה. בעמודה מקור מצוין איך נקבע קשר הגומלין:

  • הוסק על ידי מודל שפה גדול (LLM). קשרים שנלמדו על ידי Gemini, על סמך שמות ותיאורים של טבלאות ועמודות במערך הנתונים.
  • חיוב על פי שימוש. קשרים שחולצו מיומני שאילתות, על סמך הצטרפויות תכופות.
  • מוגדר על ידי סכימה. קשרים שנגזרים ממיפויים קיימים של מפתח ראשי ומפתח זר בסכימת הטבלה.

אפשר לסנן את הקשרים של טבלה ספציפית או לשלוח משוב על איכות הקשרים שזוהו. כדי לייצא את תיאור מערך הנתונים והקשרים שנוצרו לקובץ JSON, לוחצים על ייצוא ל-JSON.

שימוש בהמלצות לשאילתות

על סמך הקשרים שזוהו, Gemini יוצר שאילתות לדוגמה. אלה שאלות בשפה טבעית עם שאילתות SQL תואמות שמצטרפות לכמה טבלאות במערך הנתונים.

  1. כדי לראות שאילתת SQL, לוחצים על שאלה.

  2. כדי לפתוח את השאילתה בעורך השאילתות של BigQuery, לוחצים על העתקה לשאילתה. אחרי כן תוכלו להריץ את השאילתה או לשנות אותה.

  3. כדי לשאול שאלת המשך, לוחצים על שאלת המשך. כך נפתח קנבס נתונים ללא שם, שבו אפשר לשוחח עם Gemini כדי לחקור את הנתונים.

המאמרים הבאים