כשמנתחים טבלה חדשה ולא מוכרת, מנתחי נתונים נתקלים לעיתים קרובות בבעיה של התחלה מאפס, כלומר איך להתחיל לכתוב שאילתות. הבעיה יכולה להיות קשורה לחוסר ודאות לגבי מבנה הנתונים ודפוסים מרכזיים בנתונים.
התכונה 'תובנות לגבי נתונים' יוצרת באופן אוטומטי תיאורים, תרשימי קשר ושאילתות SQL ממטא-הנתונים של הטבלה ושל מערך הנתונים. המידע הזה עוזר לכם להבין במהירות את מבנה הנתונים, התוכן והקשרים בלי שתצטרכו לבצע הגדרה ידנית מקיפה. כדי לבצע חקירה נוספת, אפשר לשאול שאלות המשך בקנבס נתונים.
התכונה 'תובנות לגבי נתונים' ב-Dataplex Universal Catalog מאפשרת לכם לחקור את הנתונים ולהבין אותם באופן אוטומטי. כך תוכלו לזהות דפוסים, להעריך את איכות הנתונים ולבצע ניתוח סטטיסטי.
לפני שמתחילים
התובנות לגבי הנתונים נוצרות באמצעות Gemini ב-BigQuery, ואפשר ליצור אותן רק ב-BigQuery Studio. קודם מגדירים את Gemini ב-BigQuery, ואז יוצרים תובנות ב-BigQuery. אחרי שיוצרים תובנות, אפשר לראות אותן ב-Dataplex Universal Catalog.
התפקידים הנדרשים
כדי לקבל הרשאת קריאה בלבד לתובנות שנוצרו, צריך לבקש מהאדמין להקצות לכם את תפקיד ה-IAM הבא:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) בפרויקט שמכיל את הטבלאות ב-BigQuery שרוצים לראות לגביהן תובנות.
כדי לקרוא הסבר על מתן תפקידים, קראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שתוכלו לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים. כדי לראות בדיוק אילו הרשאות נדרשות כדי ליצור תובנות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
dataplex.datascans.getdataplex.datascans.getData
הפעלת ממשקי ה-API
כדי להשתמש בתובנות לגבי נתונים, צריך להפעיל את ממשקי ה-API הבאים בפרויקט: Dataplex API, BigQuery API ו-Gemini for Google Cloud API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
מידע נוסף על הפעלת Gemini for Google Cloud API זמין במאמר בנושא הפעלת Gemini for Google Cloud API בפרויקט. Google Cloud
מידע על תובנות מנתונים
התובנות לגבי הנתונים יוצרות באופן אוטומטי שאילתות בשפה טבעית ואת המקבילות שלהן ב-SQL על סמך המטא נתונים של טבלה.
דוגמה להפעלת תובנות
נניח שיש לכם טבלה בשם telco_churn עם המטא-נתונים הבאים:
| שם השדה | סוג |
|---|---|
| CustomerID | STRING |
| מגדר | STRING |
| Tenure | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| חוזה | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| נטישה | BOOLEAN |
אלה חלק מהשאילתות לדוגמה שתכונת התובנות לגבי הנתונים יוצרת עבור הטבלה הזו:
זיהוי לקוחות שנרשמו לכל שירותי הפרימיום והם לקוחות כבר יותר מ-50 חודשים.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;לזהות איזה ספק אינטרנט איבד הכי הרבה לקוחות.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;זיהוי שיעורי נטישה לפי פלח בקרב לקוחות עם ערך גבוה.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
הצגת התובנות
כדי לראות תובנות לגבי טבלה ב-BigQuery, משתמשים ב-Dataplex Universal Catalog Search.
במסוף Google Cloud , עוברים לדף Search של Dataplex Universal Catalog.
מחפשים טבלה ב-BigQuery שרוצים לראות לגביה תובנות.
בתוצאות החיפוש, לוחצים על הטבלה כדי לפתוח את דף הערך שלה.
לוחצים על הכרטיסייה תובנות. אם הכרטיסייה ריקה, המשמעות היא שהתובנות לגבי הטבלה הזו עדיין לא נוצרו. אפשר ליצור תובנות מנתונים ב-BigQuery Studio.
תמחור
פרטים על התמחור של התכונה הזו זמינים במאמר סקירת התמחור של Gemini ב-BigQuery.
מכסות ומגבלות
מידע על מכסות ומגבלות של התכונה הזו זמין במאמר מכסות ל-Gemini ב-BigQuery.
מיקומים
אפשר להשתמש בתובנות לגבי נתונים בכל המיקומים של BigQuery. מידע על המקומות שבהם Gemini ב-BigQuery מעבד את הנתונים שלכם זמין במאמר איפה Gemini ב-BigQuery מעבד את הנתונים שלכם.
מגבלות
- התכונה 'תובנות לגבי נתונים' זמינה לטבלאות BigQuery, לטבלאות BigLake, לטבלאות חיצוניות ולתצוגות מפורטות.
- לקוחות שמשתמשים בכמה עננים לא יכולים לגשת לנתונים מעננים אחרים.
- התובנות לגבי הנתונים לא תומכות בסוגי העמודות
GeoאוJSON. - התובנות לא תמיד יציגו שאילתות. כדי להגדיל את הסיכוי ליצירת שאילתות מעניינות יותר, אפשר ליצור מחדש תובנות ב-BigQuery Studio.
המאמרים הבאים
- איך יוצרים תובנות ב-BigQuery
- איך יוצרים סריקת פרופיל נתונים
- איך כותבים שאילתות בעזרת Gemini ב-BigQuery