תהליך עבודה טבלאי ליצירת תחזיות

במסמך הזה מפורטת סקירה כללית על Tabular Workflow for Forecasting pipeline and components. מידע נוסף על אימון מודל זמין במאמר אימון מודל באמצעות Tabular Workflow for Forecasting.

תהליך העבודה הטבלאי ליצירת תחזיות הוא צינור מלא של משימות תחזיות. הוא דומה ל-AutoML API, אבל מאפשר לכם לבחור מה לשלוט ומה להפוך לאוטומטי. במקום אמצעי בקרה לכל הצינור, יש אמצעי בקרה לכל שלב בצינור. אמצעי הבקרה של הצינור כוללים:

  • פיצול נתונים
  • Feature engineering
  • חיפוש אדריכלות
  • אימון המודל
  • שילוב מודלים

יתרונות

אלה כמה מהיתרונות של שימוש בתהליך עבודה טבלאי ליצירת תחזיות:

  • תמיכה במערכי נתונים גדולים בגודל של עד 1TB ועם עד 200 עמודות.
  • האפשרות הזו מאפשרת לשפר את היציבות ולקצר את זמן ההכשרה על ידי הגבלת מרחב החיפוש של סוגי הארכיטקטורה או דילוג על חיפוש הארכיטקטורה.
  • אפשר לשפר את מהירות האימון על ידי בחירה ידנית של החומרה שמשמשת לאימון ולחיפוש ארכיטקטורה.
  • אפשר להקטין את גודל המודל ולשפר את זמן האחזור על ידי שינוי גודל האנסמבל.
  • אפשר לבדוק כל רכיב בממשק גרפי רב-עוצמה של צינורות, שמאפשר לראות את טבלאות הנתונים שעברו טרנספורמציה, את ארכיטקטורות המודלים שנבדקו ועוד הרבה פרטים.
  • כל רכיב מקבל גמישות ושקיפות מורחבות, כמו היכולת להתאים אישית פרמטרים, חומרה, להציג את סטטוס התהליך, יומנים ועוד.

תחזיות בצינורות של Gemini Enterprise Agent Platform

Tabular Workflow for Forecasting היא דוגמה מנוהלת של צינורות של Gemini Enterprise Agent Platform.

Gemini Enterprise Agent Platform Pipelines הוא שירות ללא שרת (serverless) שמריץ צינורות של Kubeflow. אתם יכולים להשתמש בצינורות כדי להפוך לאוטומטיות את המשימות שלכם בלמידת מכונה ובהכנת נתונים, ולעקוב אחריהן. כל שלב בצינור העברת נתונים מבצע חלק מזרימת העבודה של צינור העברת הנתונים. לדוגמה, צינור יכול לכלול שלבים לפיצול נתונים, המרה של סוגי נתונים ואימון מודל. מכיוון ששלבים הם מופעים של רכיבי צינור עיבוד נתונים, יש להם קלט, פלט וקובץ אימג' של קונטיינר. אפשר להגדיר את נתוני הקלט של השלב מתוך נתוני הקלט של צינור העיבוד, או שהם יכולים להיות תלויים בפלט של שלבים אחרים בצינור העיבוד הזה. התלויות האלה מגדירות את תהליך העבודה של צינור הנתונים כגרף אציקלי מכוון.

סקירה כללית של צינורות ורכיבים

בתרשים הבא מוצג צינור עיבוד הנתונים של Tabular Workflow for Forecasting:

צינור עיבוד נתונים לתחזיות 

הרכיבים של צינור עיבוד הנתונים הם:

  1. training-configurator-and-validator: מאמת את הגדרות האימון ומפיק את המטא-נתונים של האימון.

    קלט:

    • instance_schema: סכימת מופע במפרט OpenAPI, שמתארת את סוגי הנתונים של נתוני ההסקה.
    • dataset_stats: נתונים סטטיסטיים שמתארים את מערך הנתונים הגולמי. לדוגמה, dataset_stats מחזירה את מספר השורות במערך הנתונים.
    • training_schema: סכימת נתונים לאימון במפרט OpenAPI, שמתארת את סוגי הנתונים של הנתונים לאימון.
  2. split-materialized-data: מפצל את הנתונים המגובשים לקבוצת נתונים לאימון, לקבוצת הערכה ולקבוצת נתונים לבדיקה.

    קלט:

    • materialized_data: נתונים מגובשים.

    פלט:

    • materialized_train_split: פיצול חומר ההדרכה.
    • materialized_eval_split: פיצול של הערכה מגובשת.
    • materialized_test_split: קבוצת נתונים לבדיקה שהוגדרה.
  3. calculate-training-parameters-2: חישוב משך זמן הריצה הצפוי של automl-forecasting-stage-1-tuner.

  4. get-hyperparameter-tuning-resultsאופציונלי: אם מגדירים את צינור העיבוד כך שידלג על חיפוש הארכיטקטורה, המערכת תטען את תוצאות כוונון ההיפר-פרמטר מריצה קודמת של צינור העיבוד.

  5. ביצוע חיפוש של ארכיטקטורת מודל וכוונון היפר-פרמטרים (automl-forecasting-stage-1-tuner) או שימוש בתוצאות של כוונון היפר-פרמטרים מהרצה קודמת של צינור עיבוד נתונים (automl-forecasting-stage-2-tuner).

    • ארכיטקטורה מוגדרת על ידי קבוצה של היפרפרמטרים.
    • היפר-פרמטרים כוללים את סוג המודל ואת הפרמטרים של המודל.
    • סוגי המודלים שנלקחים בחשבון הם רשתות נוירונים ועצים מחוזקים.
    • מודל מאומן לכל ארכיטקטורה שנבדקת.

    קלט:

    • materialized_train_split: פיצול חומר ההדרכה.
    • materialized_eval_split: פיצול של הערכה מגובשת.
    • artifact – תוצאות של כוונון היפר-פרמטרים מהרצה קודמת של צינור לעיבוד נתונים. הארטיפקט הזה משמש כקלט רק אם מגדירים את צינור העיבוד כך שידלג על חיפוש הארכיטקטורה.

    פלט:

    • tuning_result_output: פלט של שיפור.
  6. get-prediction-image-uri-2: יוצר את כתובת ה-URI הנכונה של תמונת ההסקה על סמך סוג המודל.

  7. automl-forecasting-ensemble-2: שילוב של הארכיטקטורות הטובות ביותר ליצירת מודל סופי.

    קלט:

    • tuning_result_output: פלט של שיפור.

    פלט:

    • unmanaged_container_model: מודל הפלט.
  8. model-upload-2 – העלאת המודל.

    קלט:

    • unmanaged_container_model: מודל הפלט.

    פלט:

    • model: מודל Agent Platform.
  9. should_run_model_evaluationאופציונלי: שימוש בקבוצת נתונים לבדיקה לחישוב מדדי הערכה.

המאמרים הבאים