סקירה כללית על צינורות עיבוד נתונים של למידת מכונה
במאמר הזה מוסבר על השירותים שבהם אפשר להשתמש כדי ליצור צינור ML לניהול תהליך העבודה של MLOps ב-BigQuery ML.
צינור עיבוד נתונים של למידת מכונה הוא ייצוג של תהליך עבודה של MLOps שמורכב מסדרה של משימות בצינור עיבוד הנתונים. כל משימה בצינור הנתונים מבצעת שלב ספציפי בתהליך העבודה של MLOps לאימון ולפריסה של מודל. הפרדה של כל שלב למשימה סטנדרטית שניתן להשתמש בה שוב מאפשרת לכם להפוך תהליכים שחוזרים על עצמם בתהליך הלמידה של מכונה לאוטומטיים ולעקוב אחריהם.
אפשר להשתמש בכל אחד מהשירותים הבאים כדי ליצור צינורות של BigQuery ML:
- אפשר להשתמש ב-Vertex AI Pipelines כדי ליצור צינורות ML ניידים וניתנים להרחבה.
- אפשר להשתמש בשאילתות GoogleSQL כדי ליצור צינורות ML מבוססי-SQL פחות מורכבים.
- אפשר להשתמש ב-Dataform כדי ליצור צינורות ML מורכבים יותר שמבוססים על SQL, או צינורות ML שבהם צריך להשתמש בבקרת גרסאות.
Vertex AI Pipelines
ב-Vertex AI Pipelines, צינור עיבוד נתונים של ML מובנה כגרף אציקלי מכוון (DAG) של משימות צינור עיבוד נתונים בקונטיינרים שמחוברות זו לזו באמצעות תלות בקלט ופלט. כל משימה בצינור עיבוד הנתונים היא מופע של רכיב בצינור עיבוד הנתונים עם קלטים ספציפיים. כשמגדירים צינור ML, מקשרים כמה משימות של צינור כדי ליצור DAG על ידי ניתוב הפלט של משימת צינור אחת לקלט של משימת הצינור הבאה בתהליך העבודה של ה-ML. אפשר גם להשתמש בקלט המקורי של צינור ה-ML כקלט למשימה מסוימת בצינור.
משתמשים ברכיבי BigQuery ML של Google Cloud Pipeline Components SDK כדי ליצור צינורות עיבוד נתונים של למידת מכונה ב-Vertex AI Pipelines. כדי להתחיל להשתמש ברכיבי BigQuery ML, אפשר לעיין במחברות הבאות:
שאילתות GoogleSQL
אפשר להשתמש בשפה פרוצדורלית של GoogleSQL כדי להריץ כמה הצהרות בשאילתה עם כמה הצהרות. אתם יכולים להשתמש בשאילתה עם כמה הצהרות כדי:
- הפעלת כמה הצהרות ברצף, עם מצב משותף.
- להפוך משימות ניהול לאוטומטיות, כמו יצירה או מחיקה של טבלאות.
- הטמעת לוגיקה מורכבת באמצעות מבני תכנות כמו
IFו-WHILE.
אחרי שיוצרים שאילתה עם כמה הצהרות, אפשר לשמור ולתזמן את השאילתה כדי לאמן את המודל, להסיק מסקנות ולבצע מעקב באופן אוטומטי.
אם צינור ה-ML שלכם כולל שימוש בפונקציה ML.GENERATE_TEXT, תוכלו לקרוא את המאמר טיפול בשגיאות מכסה באמצעות קריאה חוזרת לפונקציה ML.GENERATE_TEXT כדי לקבל מידע נוסף על שימוש ב-SQL כדי לבצע איטרציה של קריאות לפונקציה. הפעלת הפונקציה באופן איטרטיבי מאפשרת לטפל בשגיאות שניתן לנסות שוב לפתור, שמתרחשות בגלל חריגה מהמכסות והמגבלות.
Dataform
אתם יכולים להשתמש ב-Dataform כדי לפתח, לבדוק, לנהל גרסאות ולתזמן תהליכי עבודה מורכבים של SQL לשינוי נתונים ב-BigQuery. אתם יכולים להשתמש ב-Dataform למשימות כמו טרנספורמציה של נתונים בתהליך של חילוץ, טעינה וטרנספורמציה (ELT) לשילוב נתונים. אחרי שנתונים גולמיים מחולצים ממערכות המקור ונרשמים ב-BigQuery, Dataform עוזר להפוך אותם לחבילה מוגדרת היטב, שנבדקה ומתועדת של טבלאות נתונים.
אם צינור ה-ML שלכם כולל שימוש בפונקציה ML.GENERATE_TEXT, תוכלו להתאים את ספריית הדוגמאות של structured_table_ml.js כדי לבצע איטרציה של קריאות לפונקציה. הפעלת הפונקציה באופן איטרטיבי מאפשרת לטפל בשגיאות שניתן לנסות שוב, שמתרחשות בגלל חריגה מהמכסות והמגבלות שחלות על הפונקציה.