בדף הזה מוסבר איך לאמן מודל סיווג או רגרסיה מתוך מערך נתונים טבלאי באמצעות Tabular Workflow for TabNet.
קיימות שתי גרסאות של Tabular Workflow ל-TabNet:
- HyperparameterTuningJob מחפש את קבוצת הערכים הכי טובה של היפר-פרמטרים לשימוש באימון המודל.
- CustomJob מאפשר לכם לציין את ערכי ההיפר-פרמטרים שבהם יש להשתמש לאימון המודל. אם אתם יודעים בדיוק אילו ערכים של היפרפרמטרים אתם צריכים, ציינו אותם במקום לחפש אותם, וכך לחסוך במשאבי אימון.
מידע על חשבונות השירות שמשמשים בתהליך העבודה הזה מופיע במאמר חשבונות שירות ל-Tabular Workflows.
Workflow APIs
תהליך העבודה הזה משתמש בממשקי ה-API הבאים:
- Vertex AI
- Dataflow
- Compute Engine
- Cloud Storage
אימון מודל באמצעות HyperparameterTuningJob
בדוגמת הקוד הבאה אפשר לראות איך מריצים צינור עיבוד נתונים של HyperparameterTuningJob:
pipeline_job = aiplatform.PipelineJob(
...
template_path=template_path,
parameter_values=parameter_values,
...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)
הפרמטר האופציונלי service_account ב-pipeline_job.run() מאפשר להגדיר את חשבון השירות של Vertex AI Pipelines לחשבון לפי בחירתכם.
הפונקציה הבאה מגדירה את צינור הנתונים ואת ערכי הפרמטרים. נתוני האימון יכולים להיות קובץ CSV ב-Cloud Storage או טבלה ב-BigQuery.
template_path, parameter_values = automl_tabular_utils.get_tabnet_hyperparameter_tuning_job_pipeline_and_parameters(...)
זוהי קבוצת משנה של פרמטרים של get_tabnet_hyperparameter_tuning_job_pipeline_and_parameters:
| שם הפרמטר | סוג | הגדרה |
|---|---|---|
data_source_csv_filenames |
String | URI של קובץ CSV שמאוחסן ב-Cloud Storage. |
data_source_bigquery_table_path |
String | כתובת URI של טבלה ב-BigQuery. |
dataflow_service_account |
String | (אופציונלי) חשבון שירות מותאם אישית להרצת משימות Dataflow. אפשר להגדיר את עבודת Dataflow כך שתשתמש בכתובות IP פרטיות וברשת משנה ספציפית של VPC. הפרמטר הזה משמש כשינוי של חשבון השירות שמוגדר כברירת מחדל של עובד Dataflow. |
study_spec_parameters_override |
List[Dict[String, Any]] | (אופציונלי) שינוי של היפרפרמטרים. הפרמטר הזה יכול להיות ריק או להכיל היפרפרמטר אחד או יותר מתוך ההיפרפרמטרים האפשריים. אם לא מגדירים ערך של היפרפרמטר, Vertex AI משתמש בטווח ברירת המחדל של ההיפרפרמטר. |
כדי להגדיר את ההיפר-פרמטרים באמצעות הפרמטר study_spec_parameters_override, צריך להשתמש בפונקציית העזר get_tabnet_study_spec_parameters_override של Vertex AI.
הפונקציה מקבלת את הקלט הבא:
dataset_size_bucket: קטגוריה לגודל מערך הנתונים- 'small': פחות ממיליון שורות
- 'medium': מיליון עד 100 מיליון שורות
- 'large': יותר מ-100 מיליון שורות
-
training_budget_bucket: קטגוריה לתקציב האימון- 'small': < $600
- 'medium': $600 - $2400
- 'large': > $2400
-
prediction_type: סוג ההסקה הרצוי
הפונקציה get_tabnet_study_spec_parameters_override מחזירה רשימה של היפרפרמטרים וטווחים.
הדוגמה הבאה ממחישה איך משתמשים בפונקציה get_tabnet_study_spec_parameters_override:
study_spec_parameters_override = automl_tabular_utils.get_tabnet_study_spec_parameters_override(
dataset_size_bucket="small",
prediction_type="classification",
training_budget_bucket="small",
)
אימון מודל באמצעות CustomJob
בדוגמת הקוד הבאה אפשר לראות איך מריצים צינור עיבוד נתונים של CustomJob:
pipeline_job = aiplatform.PipelineJob(
...
template_path=template_path,
parameter_values=parameter_values,
...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)
הפרמטר האופציונלי service_account ב-pipeline_job.run() מאפשר להגדיר את חשבון השירות של Vertex AI Pipelines לחשבון לפי בחירתכם.
הפונקציה הבאה מגדירה את צינור הנתונים ואת ערכי הפרמטרים. נתוני האימון יכולים להיות קובץ CSV ב-Cloud Storage או טבלה ב-BigQuery.
template_path, parameter_values = automl_tabular_utils.get_tabnet_trainer_pipeline_and_parameters(...)
זוהי קבוצת משנה של פרמטרים של get_tabnet_trainer_pipeline_and_parameters:
| שם הפרמטר | סוג | הגדרה |
|---|---|---|
data_source_csv_filenames |
String | URI של קובץ CSV שמאוחסן ב-Cloud Storage. |
data_source_bigquery_table_path |
String | כתובת URI של טבלה ב-BigQuery. |
dataflow_service_account |
String | (אופציונלי) חשבון שירות מותאם אישית להרצת משימות Dataflow. אפשר להגדיר את עבודת Dataflow כך שתשתמש בכתובות IP פרטיות וברשת משנה ספציפית של VPC. הפרמטר הזה משמש כשינוי של חשבון השירות שמוגדר כברירת מחדל של עובד Dataflow. |
המאמרים הבאים
אחרי שמוכנים להסיק מסקנות באמצעות מודל הסיווג או הרגרסיה, יש שתי אפשרויות:
- הסקת מסקנות אונליין (בזמן אמת) באמצעות המודל
- קבלת מסקנות לגבי קבוצת נתונים ישירות מהמודל.
- מידע נוסף על התמחור של אימון מודלים