תהליך עבודה טבלאי ליצירת תחזיות

במסמך הזה מפורטת סקירה כללית של הצינור ורכיבי התהליך של Tabular Workflow for Forecasting. מידע נוסף על אימון מודל זמין במאמר אימון מודל באמצעות Tabular Workflow for Forecasting .

תהליך העבודה הטבלאי ליצירת תחזיות הוא צינור מלא למשימות של יצירת תחזיות. הוא דומה ל-AutoML API, אבל מאפשר לכם לבחור מה לשלוט ומה להפוך לאוטומטי. במקום אמצעי בקרה לכל הצינור, יש אמצעי בקרה לכל שלב בצינור. אמצעי הבקרה של הצינור כוללים:

  • פיצול נתונים
  • Feature engineering
  • חיפוש אדריכלות
  • אימון המודל
  • שילוב מודלים

יתרונות

אלה כמה מהיתרונות של התכונה 'תחזיות בפורמט טבלה':

  • תמיכה במערכי נתונים גדולים בגודל של עד 1TB ועם עד 200 עמודות.
  • האפשרות הזו מאפשרת לשפר את היציבות ולקצר את זמן האימון על ידי הגבלת מרחב החיפוש של סוגי הארכיטקטורה או דילוג על חיפוש הארכיטקטורה.
  • אפשר לשפר את מהירות האימון על ידי בחירה ידנית של החומרה שמשמשת לאימון ולחיפוש ארכיטקטורה.
  • אפשר להקטין את גודל המודל ולשפר את זמן האחזור על ידי שינוי גודל האנסמבל.
  • אפשר לבדוק כל רכיב בממשק גרפי רב-עוצמה של צינורות, שמאפשר לראות את טבלאות הנתונים שעברו טרנספורמציה, את ארכיטקטורות המודלים שנבדקו ועוד הרבה פרטים.
  • כל רכיב מקבל גמישות ושקיפות מורחבות, כמו היכולת להתאים אישית פרמטרים, חומרה, סטטוס תהליך הצפייה, יומנים ועוד.

תחזיות ב-Vertex AI Pipelines

‫Tabular Workflow for Forecasting (תהליך עבודה טבלאי לחיזוי) הוא מכונה מנוהלת של Vertex AI Pipelines.

Vertex AI Pipelines הוא שירות ללא שרתים שמריץ צינורות עיבוד נתונים של Kubeflow. אתם יכולים להשתמש בצינורות כדי להפוך לאוטומטיות את המשימות שלכם בלמידת מכונה ובהכנת נתונים, ולעקוב אחריהן. כל שלב בצינור העברת נתונים מבצע חלק מזרימת העבודה של צינור העברת הנתונים. לדוגמה, צינור יכול לכלול שלבים לפיצול נתונים, המרה של סוגי נתונים ואימון מודל. מכיוון ששלבים הם מופעים של רכיבי צינור עיבוד נתונים, יש להם קלט, פלט וקובץ אימג' של קונטיינר. אפשר להגדיר את קלט השלב מתוך הקלט של צינור העיבוד, או שהוא יכול להיות תלוי בפלט של שלבים אחרים בצינור העיבוד הזה. התלויות האלה מגדירות את תהליך העבודה של הצינור כגרף אציקלי מכוון.

סקירה כללית של צינורות ורכיבים

בתרשים הבא מוצג צינור עיבוד הנתונים של Tabular Workflow for Forecasting :

צינור עיבוד נתונים לתחזיות 

הרכיבים של צינור עיבוד הנתונים הם:

  1. feature-transform-engine: מבצע הנדסת פיצ'רים. פרטים נוספים זמינים במאמר בנושא Feature Transform Engine.
  2. training-configurator-and-validator: מאמת את הגדרות האימון ומפיק את המטא-נתונים של האימון.

    קלט:

    • instance_schema: סכימת מופע במפרט OpenAPI, שמתארת את סוגי הנתונים של נתוני ההסקה.
    • dataset_stats: נתונים סטטיסטיים שמתארים את מערך הנתונים הגולמי. לדוגמה, dataset_stats מחזירה את מספר השורות במערך הנתונים.
    • training_schema: סכימת נתונים לאימון במפרט OpenAPI, שמתארת את סוגי הנתונים של הנתונים לאימון.
  3. split-materialized-data: מפצל את הנתונים שנוצרו לקבוצת נתונים לאימון, למערך הערכה ולקבוצת נתונים לבדיקה.

    קלט:

    • materialized_data: נתונים מגובשים.

    פלט:

    • materialized_train_split: פיצול חומרים להדרכה.
    • materialized_eval_split: פיצול של הערכה מגובשת.
    • materialized_test_split: קבוצת נתונים לבדיקה שעברה מימוש.
  4. calculate-training-parameters-2: חישוב משך זמן הריצה הצפוי של automl-forecasting-stage-1-tuner.

  5. get-hyperparameter-tuning-resultsאופציונלי: אם מגדירים את צינור העיבוד כך שידלג על חיפוש הארכיטקטורה, המערכת תטען את תוצאות כוונון ההיפר-פרמטר מהפעלה קודמת של צינור העיבוד.

  6. ביצוע חיפוש של ארכיטקטורת מודל וכוונון היפר-פרמטרים (automl-forecasting-stage-1-tuner) או שימוש בתוצאות של כוונון היפר-פרמטרים מהרצה קודמת של צינור עיבוד נתונים (automl-forecasting-stage-2-tuner).

    • ארכיטקטורה מוגדרת על ידי קבוצה של היפרפרמטרים.
    • היפר-פרמטרים כוללים את סוג המודל ואת הפרמטרים של המודל.
    • סוגי המודלים שנלקחים בחשבון הם רשתות נוירונים ועצים מחוזקים.
    • מודל מאומן לכל ארכיטקטורה שנבדקת.

    קלט:

    • materialized_train_split: פיצול חומרים להדרכה.
    • materialized_eval_split: פיצול של הערכה מגובשת.
    • artifact – תוצאות של כוונון היפר-פרמטרים מהרצה קודמת של צינור לעיבוד נתונים. הארטיפקט הזה הוא קלט רק אם מגדירים את צינור העיבוד כך שידלג על חיפוש הארכיטקטורה.

    פלט:

    • tuning_result_output: פלט של שיפור.
  7. get-prediction-image-uri-2: יוצר את כתובת ה-URI הנכונה של תמונת ההסקה על סמך סוג המודל.

  8. automl-forecasting-ensemble-2: שילוב של הארכיטקטורות הטובות ביותר ליצירת מודל סופי.

    קלט:

    • tuning_result_output: פלט של שיפור.

    פלט:

    • unmanaged_container_model: מודל הפלט.
  9. model-upload-2 – העלאת המודל.

    קלט:

    • unmanaged_container_model: מודל הפלט.

    פלט:

    • model: מודל Vertex AI.
  10. should_run_model_evaluationאופציונלי: שימוש בקבוצת נתונים לבדיקה לחישוב מדדי הערכה.

המאמרים הבאים