תובנות הנתונים ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog) יוצרות באופן אוטומטי תיאורים, תרשימי קשר ושאילתות SQL ממטא-הנתונים של הטבלה ושל מערך הנתונים. המידע הזה עוזר להבין במהירות את מבנה הנתונים, התוכן והקשרים בלי צורך בהגדרה ידנית מקיפה. כדי לבדוק לעומק, אפשר לשאול שאלות המשך בקנבס נתונים.
כשמנתחים טבלה חדשה ולא מוכרת, מנתחי נתונים נתקלים לעיתים קרובות בבעיית ההתנעה הקרה: איך מתחילים לכתוב שאילתות. הבעיה יכולה להיות קשורה לחוסר ודאות לגבי מבנה הנתונים ודפוסים מרכזיים בנתונים. התכונה 'תובנות לגבי נתונים' ב-Knowledge Catalog מאפשרת לכם לחקור את הנתונים ולהבין אותם באופן אוטומטי. כך תוכלו לזהות דפוסים, להעריך את איכות הנתונים ולבצע ניתוח סטטיסטי.
סקירה כללית
תובנות לגבי נתונים משתמשות ב-Gemini כדי לנתח את המטא-נתונים שלכם וליצור את הפריטים הבאים:
תיאורים: סיכומים שנוצרו על ידי AI ומסבירים את המטרה של מערך הנתונים, את המבנה של הטבלה ואת הפרטים של עמודות ספציפיות.
שאילתות לדוגמה: שאילתות SQL מותאמות אישית שנוצרו במיוחד עבור הסכימה והתוכן של מערך הנתונים או הטבלה.
תרשימי קשר: תצוגות חזותיות שמציגות את הקשרים והתלות בין טבלאות שונות בתוך מערך הנתונים.
משאבים נתמכים
התובנות לגבי הנתונים זמינות לסוגי הנתונים המובנים הבאים:
- מערכי נתונים, טבלאות ותצוגות ב-BigQuery
- טבלאות Lakehouse ב-Google Cloud (כולל Apache Iceberg)
- טבלאות חיצוניות
- טבלאות של קטלוג REST של Iceberg
דוגמה להרצת תובנות
התובנות לגבי הנתונים יוצרות באופן אוטומטי שאילתות בשפה טבעית ואת המקבילות שלהן ב-SQL על סמך המטא נתונים של הטבלה.
נניח שיש טבלה בשם telco_churn עם המטא-נתונים הבאים:
| שם השדה | סוג |
|---|---|
| CustomerID | STRING |
| מגדר | STRING |
| Tenure | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| חוזה | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| נטישה | BOOLEAN |
אלה חלק מהשאילתות לדוגמה שתכונת התובנות לגבי הנתונים יוצרת עבור הטבלה הזו:
זיהוי לקוחות שנרשמו לכל שירותי הפרימיום והם לקוחות כבר יותר מ-50 חודשים.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;לזהות את ספק האינטרנט עם הכי הרבה לקוחות שעזבו.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;זיהוי שיעורי נטישה לפי פלח בקרב לקוחות עם ערך גבוה.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
מצבים ליצירת תובנות לגבי נתונים
כשמפיקים תובנות מנתונים, Knowledge Catalog מספק שני מצבים:
| מצב | תיאור | Usage |
|---|---|---|
| יצירה ופרסום |
שמירת התובנות שנוצרו מהנתונים ב-Knowledge Catalog כהיבטים של מטא-נתונים. צריכות להיות לכם ההרשאות הנדרשות לפרסום. כשמשתמשים באפשרות יצירה ופרסום, מתבצעות הפעולות הבאות:
|
משתמשים במצב הזה לתיעוד נתונים בכל הארגון שנשמר וניתן לשימוש חוזר, או כשיוצרים תהליכי עבודה של ניהול שמבוססים על קטלוג. |
| יצירה ללא פרסום |
יצירת תובנות לגבי נתונים כמו תיאורים, שאלות בשפה טבעית ושאילתות SQL על פי דרישה. האפשרות יצירה ללא פרסום לא מפרסמת תובנות ב-Knowledge Catalog. |
משתמשים במצב הזה כדי לבצע במהירות מחקר אד-הוק, וכך להימנע מעומס בנתוני הקטלוג. |
תמחור
פרטים על התמחור של התכונה הזו זמינים במאמר סקירת התמחור של Gemini ב-BigQuery.
מיקומים
אפשר להשתמש בתובנות מנתונים בכל המיקומים של BigQuery. כדי לדעת איפה Gemini ב-BigQuery מעבד את הנתונים שלכם, אפשר לעיין במאמר איפה Gemini ב-BigQuery מעבד את הנתונים שלכם.
מגבלות
- ללקוחות שמשתמשים בכמה עננים, הנתונים מעננים אחרים לא זמינים.
- התובנות לגבי הנתונים לא תומכות בסוגי העמודות
GeoאוJSON. - התובנות לא תמיד יציגו שאילתות. כדי להגדיל את הסיכוי ליצור שאילתות מעניינות יותר, אפשר ליצור מחדש תובנות ב-BigQuery Studio.
המאמרים הבאים
- איך יוצרים תובנות ב-BigQuery
- איך יוצרים סריקה של פרופיל נתונים
- איך כותבים שאילתות בעזרת Gemini ב-BigQuery