אימון מודל באמצעות TabNet

בדף הזה מוסבר איך לאמן מודל סיווג או רגרסיה מתוך מערך נתונים טבלאי באמצעות Tabular Workflow for TabNet.

קיימות שתי גרסאות של Tabular Workflow ל-TabNet:

  • HyperparameterTuningJob מחפש את קבוצת הערכים הכי טובה של היפר-פרמטרים לשימוש באימון המודל.
  • CustomJob מאפשר לכם לציין את ערכי ההיפר-פרמטרים שבהם יש להשתמש לאימון המודל. אם אתם יודעים בדיוק אילו ערכים של היפרפרמטרים אתם צריכים, ציינו אותם במקום לחפש אותם, וכך לחסוך במשאבי אימון.

מידע על חשבונות השירות שמשמשים בתהליך העבודה הזה מופיע במאמר חשבונות שירות ל-Tabular Workflows.

Workflow APIs

תהליך העבודה הזה משתמש בממשקי ה-API הבאים:

  • Vertex AI
  • Dataflow
  • Compute Engine
  • Cloud Storage

אימון מודל באמצעות HyperparameterTuningJob

בדוגמת הקוד הבאה אפשר לראות איך מריצים צינור עיבוד נתונים של HyperparameterTuningJob:

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

הפרמטר האופציונלי service_account ב-pipeline_job.run() מאפשר להגדיר את חשבון השירות של Vertex AI Pipelines לחשבון לפי בחירתכם.

הפונקציה הבאה מגדירה את צינור הנתונים ואת ערכי הפרמטרים. נתוני האימון יכולים להיות קובץ CSV ב-Cloud Storage או טבלה ב-BigQuery.

template_path, parameter_values =  automl_tabular_utils.get_tabnet_hyperparameter_tuning_job_pipeline_and_parameters(...)

זוהי קבוצת משנה של פרמטרים של get_tabnet_hyperparameter_tuning_job_pipeline_and_parameters:

שם הפרמטר סוג הגדרה
data_source_csv_filenames String ‫URI של קובץ CSV שמאוחסן ב-Cloud Storage.
data_source_bigquery_table_path String כתובת URI של טבלה ב-BigQuery.
dataflow_service_account String (אופציונלי) חשבון שירות מותאם אישית להרצת משימות Dataflow. אפשר להגדיר את עבודת Dataflow כך שתשתמש בכתובות IP פרטיות וברשת משנה ספציפית של VPC. הפרמטר הזה משמש כשינוי של חשבון השירות שמוגדר כברירת מחדל של עובד Dataflow.
study_spec_parameters_override List[Dict[String, Any]] (אופציונלי) שינוי של היפרפרמטרים. הפרמטר הזה יכול להיות ריק או להכיל היפרפרמטר אחד או יותר מתוך ההיפרפרמטרים האפשריים. אם לא מגדירים ערך של היפרפרמטר, Vertex AI משתמש בטווח ברירת המחדל של ההיפרפרמטר.

כדי להגדיר את ההיפר-פרמטרים באמצעות הפרמטר study_spec_parameters_override, צריך להשתמש בפונקציית העזר get_tabnet_study_spec_parameters_override של Vertex AI. הפונקציה מקבלת את הקלט הבא:

  • dataset_size_bucket: קטגוריה לגודל מערך הנתונים
    • ‫'small': פחות ממיליון שורות
    • ‫'medium': מיליון עד 100 מיליון שורות
    • ‫'large': יותר מ-100 מיליון שורות
  • training_budget_bucket: קטגוריה לתקציב האימון
    • ‫'small': < $600
    • ‫'medium': $600 - $2400
    • ‫'large': > $2400
  • prediction_type: סוג ההסקה הרצוי

הפונקציה get_tabnet_study_spec_parameters_override מחזירה רשימה של היפרפרמטרים וטווחים.

הדוגמה הבאה ממחישה איך משתמשים בפונקציה get_tabnet_study_spec_parameters_override:

study_spec_parameters_override = automl_tabular_utils.get_tabnet_study_spec_parameters_override(
    dataset_size_bucket="small",
    prediction_type="classification",
    training_budget_bucket="small",
)

אימון מודל באמצעות CustomJob

בדוגמת הקוד הבאה אפשר לראות איך מריצים צינור עיבוד נתונים של CustomJob:

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

הפרמטר האופציונלי service_account ב-pipeline_job.run() מאפשר להגדיר את חשבון השירות של Vertex AI Pipelines לחשבון לפי בחירתכם.

הפונקציה הבאה מגדירה את צינור הנתונים ואת ערכי הפרמטרים. נתוני האימון יכולים להיות קובץ CSV ב-Cloud Storage או טבלה ב-BigQuery.

template_path, parameter_values = automl_tabular_utils.get_tabnet_trainer_pipeline_and_parameters(...)

זוהי קבוצת משנה של פרמטרים של get_tabnet_trainer_pipeline_and_parameters:

שם הפרמטר סוג הגדרה
data_source_csv_filenames String ‫URI של קובץ CSV שמאוחסן ב-Cloud Storage.
data_source_bigquery_table_path String כתובת URI של טבלה ב-BigQuery.
dataflow_service_account String (אופציונלי) חשבון שירות מותאם אישית להרצת משימות Dataflow. אפשר להגדיר את עבודת Dataflow כך שתשתמש בכתובות IP פרטיות וברשת משנה ספציפית של VPC. הפרמטר הזה משמש כשינוי של חשבון השירות שמוגדר כברירת מחדל של עובד Dataflow.

המאמרים הבאים

אחרי שמוכנים להסיק מסקנות באמצעות מודל הסיווג או הרגרסיה, יש שתי אפשרויות: