מידע על תובנות מהנתונים לגבי נתונים מובְנים

תובנות הנתונים ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog) יוצרות באופן אוטומטי תיאורים, תרשימי קשר ושאילתות SQL ממטא-הנתונים של הטבלה ושל מערך הנתונים. המידע הזה עוזר להבין במהירות את מבנה הנתונים, התוכן והקשרים בלי צורך בהגדרה ידנית מקיפה. כדי לבדוק לעומק, אפשר לשאול שאלות המשך בקנבס נתונים.

כשמנתחים טבלה חדשה ולא מוכרת, מנתחי נתונים נתקלים לעיתים קרובות בבעיית ההתנעה הקרה: איך מתחילים לכתוב שאילתות. הבעיה יכולה להיות קשורה לחוסר ודאות לגבי מבנה הנתונים ודפוסים מרכזיים בנתונים. התכונה 'תובנות לגבי נתונים' ב-Knowledge Catalog מאפשרת לכם לחקור את הנתונים ולהבין אותם באופן אוטומטי. כך תוכלו לזהות דפוסים, להעריך את איכות הנתונים ולבצע ניתוח סטטיסטי.

סקירה כללית

תובנות לגבי נתונים משתמשות ב-Gemini כדי לנתח את המטא-נתונים שלכם וליצור את הפריטים הבאים:

  • תיאורים: סיכומים שנוצרו על ידי AI ומסבירים את המטרה של מערך הנתונים, את המבנה של הטבלה ואת הפרטים של עמודות ספציפיות.

  • שאילתות לדוגמה: שאילתות SQL מותאמות אישית שנוצרו במיוחד עבור הסכימה והתוכן של מערך הנתונים או הטבלה.

  • תרשימי קשר: תצוגות חזותיות שמציגות את הקשרים והתלות בין טבלאות שונות בתוך מערך הנתונים.

משאבים נתמכים

התובנות לגבי הנתונים זמינות לסוגי הנתונים המובנים הבאים:

  • מערכי נתונים, טבלאות ותצוגות ב-BigQuery
  • טבלאות Lakehouse ב-Google Cloud (כולל Apache Iceberg)
  • טבלאות חיצוניות
  • טבלאות של קטלוג REST של Iceberg

דוגמה להרצת תובנות

התובנות לגבי הנתונים יוצרות באופן אוטומטי שאילתות בשפה טבעית ואת המקבילות שלהן ב-SQL על סמך המטא נתונים של הטבלה.

נניח שיש טבלה בשם telco_churn עם המטא-נתונים הבאים:

שם השדה סוג
CustomerID STRING
מגדר STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
חוזה STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
נטישה BOOLEAN

אלה חלק מהשאילתות לדוגמה שתכונת התובנות לגבי הנתונים יוצרת עבור הטבלה הזו:

  • זיהוי לקוחות שנרשמו לכל שירותי הפרימיום והם לקוחות כבר יותר מ-50 חודשים.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • לזהות את ספק האינטרנט עם הכי הרבה לקוחות שעזבו.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • זיהוי שיעורי נטישה לפי פלח בקרב לקוחות עם ערך גבוה.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

מצבים ליצירת תובנות לגבי נתונים

כשמפיקים תובנות מנתונים, Knowledge Catalog מספק שני מצבים:

מצב תיאור Usage
יצירה ופרסום

שמירת התובנות שנוצרו מהנתונים ב-Knowledge Catalog כהיבטים של מטא-נתונים. צריכות להיות לכם ההרשאות הנדרשות לפרסום. כשמשתמשים באפשרות יצירה ופרסום, מתבצעות הפעולות הבאות:

  • מאחסן תיאורים של טבלאות ועמודות ב-Knowledge Catalog.
  • התכונה הזו מאפשרת לשמור הצעות לשאילתות ולשאלות כהיבטים שאפשר לעשות בהם שימוש חוזר.
  • התובנות שפורסמו יהיו נגישות לכל המשתמשים שיש להם גישה מתאימה ל-Knowledge Catalog, וכך הידע הארגוני יהיה משותף.
  • אפשר לערוך ולשמור תיאורים ישירות ב-Knowledge Catalog.

משתמשים במצב הזה לתיעוד נתונים בכל הארגון שנשמר וניתן לשימוש חוזר, או כשיוצרים תהליכי עבודה של ניהול שמבוססים על קטלוג.

יצירה ללא פרסום

יצירת תובנות לגבי נתונים כמו תיאורים, שאלות בשפה טבעית ושאילתות SQL על פי דרישה. האפשרות יצירה ללא פרסום לא מפרסמת תובנות ב-Knowledge Catalog.

משתמשים במצב הזה כדי לבצע במהירות מחקר אד-הוק, וכך להימנע מעומס בנתוני הקטלוג.

תמחור

פרטים על התמחור של התכונה הזו זמינים במאמר סקירת התמחור של Gemini ב-BigQuery.

מיקומים

אפשר להשתמש בתובנות מנתונים בכל המיקומים של BigQuery. כדי לדעת איפה Gemini ב-BigQuery מעבד את הנתונים שלכם, אפשר לעיין במאמר איפה Gemini ב-BigQuery מעבד את הנתונים שלכם.

מגבלות

  • ללקוחות שמשתמשים בכמה עננים, הנתונים מעננים אחרים לא זמינים.
  • התובנות לגבי הנתונים לא תומכות בסוגי העמודות Geo או JSON.
  • התובנות לא תמיד יציגו שאילתות. כדי להגדיל את הסיכוי ליצור שאילתות מעניינות יותר, אפשר ליצור מחדש תובנות ב-BigQuery Studio.

המאמרים הבאים