סקירה כללית על תובנות מנתונים

במאמר הזה מוסבר על תובנות לגבי נתונים, תכונה של Gemini ב-BigQuery שעוזרת לכם לבצע במהירות בדיקה וניתוח ראשוניים של נתונים חדשים או לא מוכרים. התובנות לגבי הנתונים יוצרות באופן אוטומטי תיאורים, גרפים של קשרים ושאילתות SQL, וגם שאלות מוצעות בשפה טבעית, מתוך המטא נתונים של הטבלה ושל מערך הנתונים. המידע הזה עוזר לכם להבין במהירות את מבנה הנתונים, התוכן והקשרים בלי שתצטרכו לבצע הגדרה ידנית מקיפה.

לפני שמתחילים

התובנות מנתונים נוצרות באמצעות Gemini ב-BigQuery. כדי להתחיל ליצור תובנות, קודם צריך להגדיר את Gemini ב-BigQuery.

סוגים של תובנות לגבי נתונים

אפשר ליצור תובנות לגבי נתונים ברמת הטבלה או מערך הנתונים:

  • לגבי טבלאות: Gemini יוצר שאלות בשפה טבעית ואת המקבילות שלהן ב-SQL כדי לעזור לכם להבין את הנתונים בטבלה אחת. בעזרת תובנות לגבי טבלאות, אפשר לזהות דפוסי נתונים, אנומליות, ערכים חריגים או בעיות באיכות בתוך טבלה. ‫Gemini גם יוצר תיאורים של הטבלה והעמודות.

  • למערכי נתונים: (תצוגה מקדימה) ‫Gemini יוצר תרשים אינטראקטיבי של קשרים שמציג קשרים בין טבלאות ושאילתות SQL בין טבלאות, כדי לעזור לכם להבין איך הטבלאות קשורות במערך נתונים. באמצעות גרפים של קשרים, אפשר לגלות איך הנתונים נגזרים, מה שיכול לעזור לפתור בעיות שקשורות לאיכות, לעקביות או לכפילות. באמצעות שאילתות בין טבלאות, אפשר למצוא קשרים רחבים יותר. לדוגמה, אפשר לחשב את ההכנסה לפי פלח לקוחות באמצעות נתונים מטבלת מכירות וטבלת לקוחות.

כדי להמשיך לחקור, אתם יכולים לשאול שאלות המשך בקנבס נתונים.

תובנות לגבי טבלאות

תובנות לגבי טבלאות עוזרות להבין את התוכן, האיכות והדפוסים בטבלה אחת ב-BigQuery. לדוגמה, אפשר ליצור שאילתות שמבצעות ניתוח סטטיסטי, וכך להשתמש בתובנות לגבי הטבלה כדי לזהות דפוסים, חריגות וערכים חריגים בנתונים. תובנות לגבי טבלאות יכולות לעזור לכם לזהות בעיות באיכות הנתונים, במיוחד אם סריקות של פרופיל הנתונים זמינות לטבלה. כשמפיקים תובנות לגבי טבלה, Gemini מספק תיאור של הטבלה, תיאורים של העמודות ופלט של סריקת הפרופיל על סמך המטא-נתונים של הטבלה. אלו האפשרויות הזמינות:

  • יצירת שאילתות: מציע שאלות בשפה טבעית ומספק את שאילתות ה-SQL המתאימות כדי לענות עליהן. כך תוכלו לגלות דפוסים, להעריך את איכות הנתונים ולבצע ניתוח סטטיסטי בלי לכתוב קוד SQL מאפס.
  • יצירת תיאורים: יצירת תיאורים לטבלה ולעמודות שלה. ‫Gemini משתמש בתוצאות של סריקת הפרופיל (אם יש כאלה) כדי להוסיף הקשר לתיאורים שנוצרו. אתם יכולים לבדוק, לערוך ולפרסם את התיאורים האלה ב-Dataplex Universal Catalog כדי לשפר את יכולת הגילוי של הנתונים ואת התיעוד שלהם.

תובנות לגבי מערך נתונים

תובנות לגבי מערך נתונים עוזרות להבין את הקשרים ואת נתיבי ההצטרפות בין כמה טבלאות במערך נתונים ב-BigQuery, וכך מספקות תצוגה הוליסטית של תוכן מערך הנתונים. כשמפיקים תובנות לגבי מערך נתונים, Gemini מספק את הפרטים הבאים:

  • תיאור מערך הנתונים: סיכום של מערך הנתונים שנוצר על ידי AI.
  • קשרים: מוצגת מפה ויזואלית ואינטראקטיבית שבה אפשר לראות את הקשרים בין הטבלאות במערך הנתונים. אפשר להציב את הסמן מעל חיבורים כדי לראות פרטים על הקשר, כמו מפתחות איחוד.
  • טבלת קשרים: מציגה תצוגת טבלה של קשרים בין טבלאות, כולל מפתחות זרים וצירופים משוערים. אפשר להגדיר קשרים באמצעות סכימה (ממגבלות של מפתחות ראשיים ומפתחות זרים), על סמך שימוש (מיומני שאילתות) או ש-Gemini מסיק אותם על סמך שמות ותיאורים של טבלאות ועמודות.
  • המלצות לשאילתות: מוצגות דוגמאות לשאילתות SQL שמדגימות איך לצרף נתונים מטבלאות שונות, על סמך הקשרים שזוהו.

דוגמה לתובנות לגבי נתוני טבלה

נניח שיש טבלה בשם telco_churn עם עמודות כמו CustomerID,‏ Tenure,‏ InternetService,‏ Contract,‏ MonthlyCharges ו-Churn. בטבלה הבאה מתוארים המטא-נתונים של הטבלה.

שם השדה סוג
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT64
Churn BOOL

התובנות לגבי הנתונים יוצרות את השאילתות לדוגמה הבאות לטבלה הזו:

  • תזהה לקוחות שיש להם מינוי לכל שירותי הפרימיום והם לקוחות כבר יותר מ-50 חודשים.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • לזהות איזה ספק אינטרנט איבד הכי הרבה לקוחות.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      customers DESC
    LIMIT 1;
    

דוגמה לתובנות מהנתונים של קבוצת נתונים

נניח שיש מערך נתונים שמכיל את הטבלאות order_items ו-inventory_items. תובנות לגבי מערך נתונים יכולות להסיק שorder_items.inventory_item_id קשור ל-inventory_items.id.

על סמך הקשרים האלה, יכול להיות ש-Gemini ייצור את השאילתה הבאה שמשלבת בין הטבלאות:

זיהוי 5 קטגוריות המוצרים המובילות עם מחיר המבצע הממוצע הכי גבוה והעלות הממוצעת שלהן.

SELECT
  ii.product_category,
  AVG(oi.sale_price) AS avg_sale_price,
  AVG(ii.cost) AS avg_cost
FROM
  `ecommerce_data.order_items` AS oi
JOIN
  `ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
  ii.product_category
ORDER BY
  avg_sale_price DESC
LIMIT 5;

תהליכי עבודה של תובנות מנתונים

בקטע הזה מתוארים תהליכי עבודה מרכזיים שמשתמשים עם תפקידים שונים יכולים לבצע באמצעות התכונה 'תובנות מנתונים' ב-BigQuery.

תהליכי עבודה לצרכני נתונים

זרימות העבודה האלה מתמקדות במשימות של מנתחי נתונים, אנליסטים עסקיים ומשתמשים אחרים שצריכים למצוא, להבין ולנתח נתונים.

  • הסבר על טבלה ב-BigQuery: תוכלו להבין במהירות את הסכימה, התוכן והשימושים האפשריים של טבלה ספציפית. אחרי שבוחרים טבלה ב-BigQuery Studio, אפשר לבצע את המשימות הבאות:

    • בודקים את התיאורים של הטבלה והעמודות שנוצרו באופן אוטומטי.

    • כדי להבין את הניואנסים של הנתונים, כדאי לבדוק את ההצעות לשאלות בשפה טבעית ואת שאילתות ה-SQL המקבילות.

    • כדי להתחיל בניתוח, אפשר להתאים ולהריץ שאילתות מוצעות.

    מידע נוסף על יצירה וצפייה בתובנות לגבי טבלאות זמין במאמר יצירת תובנות לגבי טבלאות.

  • בדיקת מערך נתונים שלם: גילוי הקשרים בין טבלאות במערך נתונים והבנת המבנה הכולל שלו. אחרי שבוחרים מערך נתונים ב-BigQuery Studio, אפשר לבצע את המשימות הבאות:

    • ליצור תובנות לגבי מערך נתונים ולצפות בהן.

    • אפשר להשתמש בתרשים האינטראקטיבי של הקשרים כדי לראות את הקשרים בין הטבלאות.

    • ניתוח טבלת קשרי הגומלין כדי לזהות מפתחות לצירוף וסוגי חיבורים (מוגדרים בסכימה, מבוססים על שימוש, נגזרים על ידי LLM).

    • משתמשים בהצעות לשאילתות SQL חוצות טבלאות כדי לבצע שאילתות על כמה טבלאות בצורה יעילה.

    מידע נוסף על יצירה של תובנות לגבי מערך נתונים וצפייה בהן זמין במאמר יצירת תובנות לגבי מערך נתונים.

תהליכי עבודה למפיקי נתונים

תהליכי העבודה האלה מיועדים למהנדסי נתונים, למהנדסי ניתוח נתונים ולאנשים אחרים שיוצרים ומנהלים נכסי נתונים.

  • יצירת מסמכי נתוני בסיס: יצירה ותחזוקה אוטומטיות של תיאורי מטא-נתונים חיוניים. אפשר לבצע את המשימות הבאות:

    • אחרי שיוצרים או משנים טבלה, מפעילים את התובנות לגבי הנתונים כדי ליצור תיאורים של הטבלה והעמודות. אפשר גם ליצור את התיאורים האלה בהיקף גדול באמצעות ה-API של Dataplex Universal Catalog ליצירת מטא נתונים אוטומטית.

    • בודקים ומשפרים את הטקסט שנוצר על ידי AI כדי לוודא שהוא מדויק מבחינה טכנית ורלוונטי לעסק.

    מידע נוסף על יצירת תיאורים של טבלאות ועמודות זמין במאמר יצירת תובנות לגבי טבלאות.

  • שיפור ההבנה של קבוצות הנתונים עבור המשתמשים: כדי להקל על הצרכנים להבין את קבוצות הנתונים שסופקו ולהשתמש בהן. אפשר לבצע את המשימות הבאות:

    • ליצור תובנות לגבי מערכי נתונים מרכזיים, במיוחד כאלה עם קשרים מורכבים.

    • כדי לקבל תובנות מדויקות ושימושיות יותר, חשוב לוודא שסריקות של פרופיל הנתונים מופעלות בטבלאות כדי לספק הקשר עשיר.

    מידע נוסף זמין במאמרים בנושא יצירת תובנות ממערך נתונים והתבססות על תוצאות פרופיל הנתונים.

תהליכי עבודה לאחראים על נתונים

תהליכי העבודה האלה תומכים באחראים על ניהול הנתונים ובצוותי הבקרה בשמירה על שלמות הנתונים והאמינות שלהם.

  • מאמתים ובודקים את המטא-נתונים שנוצרו על ידי AI: חשוב לוודא שהמטא-נתונים שנוצרו על ידי תובנות מנתונים מדויקים ומהימנים. אפשר לבצע את המשימות הבאות:

    • חשוב לבדוק באופן קבוע את התיאורים ואת הקשרים שנוצרו באמצעות התכונה 'תובנות'.

    • השוואה בין קשרים שהוסקו בתרשים הקשרים לבין מודלים של נתונים ולוגיקה עסקית.

    • בודקים את המטא-נתונים שנוצרו על ידי AI ומתקנים אי דיוקים.

    למידע נוסף, ראו יצירת תובנות לגבי טבלה ויצירת תובנות לגבי מערך נתונים.

תמחור

פרטים על התמחור של התכונה הזו זמינים במאמר סקירת התמחור של Gemini ב-BigQuery.

מכסות ומגבלות

מידע על מכסות ומגבלות של התכונה הזו זמין במאמר מכסות ל-Gemini ב-BigQuery.

מגבלות

אלו המגבלות שחלות על תובנות לגבי נתונים:

  • תובנות לגבי נתונים זמינות לטבלאות BigQuery, לטבלאות BigLake, לטבלאות חיצוניות ולתצוגות מפורטות.

  • לקוחות שמשתמשים בכמה עננים לא יכולים לראות נתונים מעננים אחרים.

  • התובנות לגבי הנתונים לא תומכות בסוגי העמודות GEO או JSON.

  • התובנות לא תמיד יציגו שאילתות. כדי להגדיל את הסיכוי ליצור שאילתות מושכות יותר, צריך להפעיל מחדש את צינור התובנות.

  • כדי ליצור תובנות מטבלאות עם בקרת גישה ברמת העמודה והרשאות משתמש מוגבלות, צריך הרשאת קריאה לכל העמודות בטבלה. כדי להריץ את השאילתות שנוצרו, צריכות להיות לכם הרשאות מספקות.

  • ‫Gemini יוצר תיאורי עמודות למקסימום 350 עמודות בטבלה.

  • כשמדובר בתובנות לגבי מערך נתונים, אי אפשר לערוך את הקשרים בתרשים הקשרים.

  • יצירת תובנות חדשות לגבי מערך נתונים מסוים תגרום להחלפת התובנות הקודמות לגבי אותו מערך נתונים.

  • מדדי קהלים של קבוצות נתונים לא תומכים בקבוצות נתונים מקושרות.

מיקומים

אפשר להשתמש בתובנות לגבי נתונים בכל המיקומים של BigQuery. מידע על המקומות שבהם Gemini ב-BigQuery מעבד את הנתונים שלכם זמין במאמר איפה Gemini ב-BigQuery מעבד את הנתונים שלכם.

המאמרים הבאים