קבלת תובנות לגבי נתונים ממודל ניתוח תרומות באמצעות מדד שניתן לסיכום
במדריך הזה משתמשים במודל של ניתוח תרומה כדי לנתח את השינויים במכירות בין 2020 ל-2021 במערך הנתונים של מכירות משקאות חריפים באיווה. במדריך הזה מוסבר איך לבצע את המשימות הבאות:
- יצירת טבלת קלט על סמך נתוני משקאות חריפים באיווה שזמינים לציבור.
- יוצרים מודל לניתוח תרומה שמשתמש במדד שניתן לסיכום. במודל מהסוג הזה מוצג סיכום של מדד נתון לשילוב של מאפיין אחד או יותר בנתונים, כדי לקבוע את התרומה של המאפיינים האלה לערך המדד.
- אפשר לקבל את התובנות לגבי המדד מהמודל באמצעות הפונקציה
ML.GET_INSIGHTS.
לפני שמתחילים את המדריך הזה, כדאי להכיר את תרחיש השימוש של ניתוח התרומה.
ההרשאות הנדרשות
כדי ליצור את מערך הנתונים, צריך את ההרשאה
bigquery.datasets.createבממשק של ניהול הזהויות והרשאות הגישה (IAM).כדי ליצור את המודל, צריך את ההרשאות הבאות:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateData
כדי להריץ הסקה, אתם צריכים את ההרשאות הבאות:
bigquery.models.getDatabigquery.jobs.create
עלויות
במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
כדי ליצור הערכת עלויות בהתאם לשימוש החזוי, אפשר להשתמש במחשבון התמחור.
מידע נוסף על התמחור של BigQuery זמין במאמר תמחור ב-BigQuery במסמכי התיעוד של BigQuery.
לפני שמתחילים
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
יצירת מערך נתונים
יוצרים מערך נתונים ב-BigQuery לאחסון מודל ה-ML.
המסוף
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית Explorer, לוחצים על שם הפרויקט.
לוחצים על הצגת פעולות > יצירת מערך נתונים.
בדף Create dataset, מבצעים את הפעולות הבאות:
בשדה Dataset ID (מזהה מערך הנתונים), מזינים
bqml_tutorial.בקטע Location type, בוחרים באפשרות במספר אזורים ואז באפשרות US (multiple regions in United States).
משאירים את שאר הגדרות ברירת המחדל כמו שהן ולוחצים על Create dataset (יצירת מערך נתונים).
BQ
כדי ליצור מערך נתונים חדש, משתמשים בפקודה bq mk עם הדגל --location. רשימה מלאה של הפרמטרים האפשריים זמינה במאמר בנושא הפקודה bq mk --dataset.
יוצרים מערך נתונים בשם
bqml_tutorialעם מיקום הנתונים שמוגדר ל-USותיאור שלBigQuery ML tutorial dataset:bq --location=US mk -d \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
במקום להשתמש בדגל
--dataset, הפקודה משתמשת בקיצור הדרך-d. אם לא מציינים את-dואת--dataset, ברירת המחדל של הפקודה היא יצירת מערך נתונים.בודקים שמערך הנתונים נוצר:
bq ls
API
מבצעים קריאה לשיטה datasets.insert עם משאב מוגדר של מערך נתונים.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
יצירת טבלה של נתוני קלט
יוצרים טבלה שמכילה נתונים של קבוצת הבדיקה וקבוצת הביקורת כדי לנתח אותם. טבלת הבדיקה מכילה נתוני משקאות חריפים משנת 2021, וטבלת הבקרה מכילה נתוני משקאות חריפים משנת 2020. השאילתה הבאה משלבת את נתוני הבדיקה והבקרה בטבלת קלט אחת:
במסוף Google Cloud , עוברים לדף BigQuery.
בעורך השאילתות, מריצים את ההצהרה הבאה:
CREATE OR REPLACE TABLE bqml_tutorial.iowa_liquor_sales_sum_data AS ( (SELECT store_name, city, vendor_name, category_name, item_description, SUM(sale_dollars) AS total_sales, FALSE AS is_test FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE EXTRACT(YEAR from date) = 2020 GROUP BY store_name, city, vendor_name, category_name, item_description, is_test) UNION ALL (SELECT store_name, city, vendor_name, category_name, item_description, SUM(sale_dollars) AS total_sales, TRUE AS is_test FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE EXTRACT (YEAR FROM date) = 2021 GROUP BY store_name, city, vendor_name, category_name, item_description, is_test) );
יצירת המודל
כדי ליצור מודל ניתוח תרומות:
במסוף Google Cloud , עוברים לדף BigQuery.
בעורך השאילתות, מריצים את ההצהרה הבאה:
CREATE OR REPLACE MODEL bqml_tutorial.iowa_liquor_sales_sum_model OPTIONS( model_type='CONTRIBUTION_ANALYSIS', contribution_metric = 'sum(total_sales)', dimension_id_cols = ['store_name', 'city', 'vendor_name', 'category_name', 'item_description'], is_test_col = 'is_test', min_apriori_support=0.05 ) AS SELECT * FROM bqml_tutorial.iowa_liquor_sales_sum_data;
השלמת השאילתה נמשכת כ-60 שניות, ולאחר מכן המודל iowa_liquor_sales_sum_model מופיע במערך הנתונים bqml_tutorial. השאילתה משתמשת בהצהרה CREATE MODEL כדי ליצור מודל, ולכן אין תוצאות לשאילתה.
קבלת תובנות מהמודל
אפשר לקבל תובנות שנוצרו על ידי מודל ניתוח התרומה באמצעות הפונקציה ML.GET_INSIGHTS.
במסוף Google Cloud , עוברים לדף BigQuery.
בעורך השאילתות, מריצים את ההצהרה הבאה כדי לבחור עמודות מהפלט של מודל ניתוח תרומת המדדים שניתן לסיכום:
SELECT contributors, metric_test, metric_control, difference, relative_difference, unexpected_difference, relative_unexpected_difference, apriori_support, contribution FROM ML.GET_INSIGHTS( MODEL `bqml_tutorial.iowa_liquor_sales_sum_model`);
כמה השורות הראשונות של הפלט אמורות להיראות כך: הערכים נחתכים כדי שיהיה קל יותר לקרוא אותם.
| תורמי תוכן | metric_test | metric_control | הבדל | relative_difference | unexpected_difference | relative_unexpected_difference | apriori_support | תרומה |
|---|---|---|---|---|---|---|---|---|
| all | 428068179 | 396472956 | 31595222 | 0.079 | 31595222 | 0.079 | 1.0 | 31595222 |
| vendor_name=SAZERAC COMPANY INC | 52327307 | 38864734 | 13462573 | 0.346 | 11491923 | 0.281 | 0.122 | 13462573 |
| city=DES MOINES | 49521322 | 41746773 | 7774549 | 0.186 | 4971158 | 0.111 | 0.115 | 7774549 |
| vendor_name=DIAGEO AMERICAS | 84681073 | 77259259 | 7421814 | 0.096 | 1571126 | 0.018 | 0.197 | 7421814 |
| category_name=100% AGAVE TEQUILA | 23915100 | 17252174 | 6662926 | 0.386 | 5528662 | 0.3 | 0.055 | 6662926 |
הפלט ממוין אוטומטית לפי התרומה, או ABS(difference), בסדר יורד. בשורה all, בעמודה difference מוצג גידול של 31,595,222$ במכירות הכוללות בין 2020 ל-2021, כלומר גידול של 7.9% כפי שמצוין בעמודה relative_difference. בשורה השנייה, עם vendor_name=SAZERAC COMPANY INC, היה unexpected_difference של 11,491,923$, כלומר הפלח הזה של הנתונים גדל ב-28% יותר משיעור הצמיחה של הנתונים בכללותם, כפי שאפשר לראות בעמודה relative_unexpected_difference.
מידע נוסף זמין במאמר בנושא עמודות פלט של מדדים שניתן לסכם.
הסרת המשאבים
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.