פריסת מודל לנקודת קצה

כדי לקבל מסקנות אונליין ממודל מאומן, צריך לפרוס את המודל לנקודת קצה. אפשר לעשות זאת באמצעות מסוף Google Cloud , Google Cloud CLI או Vertex AI API.

במסמך הזה מתואר תהליך הפריסה של מודלים לנקודות קצה.

מה קורה כשפורסים מודל

פריסת מודל משייכת משאבים פיזיים למודל, כדי שיוכל להפיק מסקנות אונליין עם זמן אחזור קצר.

אפשר לפרוס כמה מודלים לנקודת קצה אחת, או לפרוס את אותו מודל לכמה נקודות קצה. מידע נוסף זמין במאמר בנושא הסיבות לפריסת יותר ממודל אחד באותה נקודת קצה.

הכנה לפריסת מודל בנקודת קצה

במהלך פריסת המודל, מקבלים את ההחלטות החשובות הבאות לגבי אופן ההפעלה של הסקת מסקנות אונליין:

משאב נוצר ההגדרה שצוינה בזמן יצירת המשאב
נקודת קצה (endpoint) המיקום שבו יופעלו ההסקות
דגם מאגר לשימוש (ModelContainerSpec)
DeployedModel משאבי מחשוב לשימוש בהסקת מסקנות אונליין

אחרי שמבצעים פריסה של המודל לנקודת הקצה, אי אפשר לשנות את הגדרות הפריסה האלה. כדי לשנות אותם, צריך לפרוס מחדש את המודל.

השלב הראשון בתהליך הפריסה הוא להחליט באיזה סוג נקודת קצה להשתמש. מידע נוסף זמין במאמר בחירת סוג נקודת קצה.

לאחר מכן, מוודאים שהמודל מוצג במרשם המודלים של Vertex AI. הפרמטר הזה נדרש כדי שיהיה אפשר לפרוס את המודל. מידע על מרשם המודלים, כולל איך לייבא ארטיפקטים של מודלים או ליצור אותם ישירות במרשם המודלים, זמין במאמר מבוא למרשם המודלים של Vertex AI.

ההחלטה הבאה שצריך לקבל היא באילו משאבי מחשוב להשתמש כדי להפעיל את המודל. סוג האימון של המודל (AutoML או מותאם אישית) וסוג הנתונים (AutoML) קובעים את סוגי המשאבים הפיזיים שזמינים למודל. אחרי פריסת המודל, אפשר mutate חלק מהמשאבים האלה בלי ליצור פריסה חדשה.

משאב נקודת הקצה מספק את נקודת הקצה של השירות (כתובת URL) שבה אתם משתמשים כדי לבקש את ההסקה. לדוגמה:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

פריסת מודל לנקודת קצה

אפשר לפרוס מודל לנקודת קצה באמצעות המסוף Google Cloud או באמצעות ה-CLI של gcloud או Vertex AI API.

פריסת מודל לנקודת קצה ציבורית באמצעות Google Cloud המסוף

במסוף Google Cloud , אפשר לפרוס מודל לנקודת קצה ציבורית קיימת שמוקדשת או משותפת, או ליצור נקודת קצה חדשה במהלך תהליך הפריסה. פרטים נוספים זמינים במאמר בנושא פריסת מודל באמצעות מסוף Google Cloud .

פריסת מודל לנקודת קצה ציבורית באמצעות ה-CLI של gcloud או Vertex AI API

כשפורסים מודל באמצעות ה-CLI של gcloud או Vertex AI API, קודם צריך ליצור נקודת קצה ייעודית או משותפת ואז לפרוס את המודל אליה. פרטים נוספים זמינים במאמרים בנושאים הבאים:

  1. יצירה של נקודת קצה ציבורית ייעודית או משותפת
  2. פריסת מודל באמצעות ה-CLI של gcloud או Vertex AI API

פריסת מודל לנקודת קצה של Private Service Connect

לפרטים, אפשר לעיין במאמר בנושא שימוש בנקודות קצה של Private Service Connect להסקת מסקנות אונליין.

שימוש בפריסה מתגלגלת לעדכון מודל שנפרס

אפשר להשתמש בפריסה מתגלגלת כדי להחליף מודל שפריסתו הושלמה בגרסה חדשה של אותו מודל. המודל החדש משתמש מחדש במשאבי המחשוב של המודל הקודם. פרטים נוספים זמינים במאמר בנושא שימוש בפריסה מתגלגלת להחלפת מודל שנפרס.

ביטול הפריסה של מודל ומחיקת נקודת הקצה

אפשר לבטל את הפריסה של מודל ולמחוק את נקודת הקצה. פרטים נוספים זמינים במאמר בנושא ביטול הפריסה של מודל ומחיקת נקודת הקצה.

סיבות לפריסת יותר ממודל אחד לנקודת קצה אחת

פריסת שני מודלים לאותה נקודת קצה מאפשרת להחליף בהדרגה מודל אחד במודל אחר. לדוגמה, נניח שאתם משתמשים במודל ומצאתם דרך להגדיל את רמת הדיוק של המודל הזה באמצעות נתוני אימון חדשים. עם זאת, אתם לא רוצים לעדכן את האפליקציה כך שתפנה לכתובת URL חדשה של נקודת קצה, ולא רוצים ליצור שינויים פתאומיים באפליקציה. אפשר להוסיף את המודל החדש לאותה נקודת קצה, להקצות לו אחוז קטן מהתנועה ולהגדיל בהדרגה את חלוקת התנועה למודל החדש עד שהוא יקבל 100% מהתנועה.

המשאבים משויכים למודל ולא לנקודת הקצה, ולכן אפשר לפרוס מודלים מסוגים שונים לאותה נקודת קצה. עם זאת, מומלץ לפרוס מודלים מסוג ספציפי (למשל, AutoML tabular או מודל שעבר אימון בהתאמה אישית) לנקודת קצה. קל יותר לנהל את ההגדרה הזו.

סיבות לפריסת מודל ליותר מנקודת קצה אחת

יכול להיות שתרצו לפרוס את המודלים שלכם עם משאבים שונים לסביבות אפליקציה שונות, כמו סביבות בדיקה וסביבות ייצור. יכול להיות שתרצו לתמוך גם ביעדי זמינות שונים לבקשות ההסקה. יכול להיות שאחת מהאפליקציות שלכם דורשת ביצועים גבוהים בהרבה מאחרות. במקרה כזה, אפשר לפרוס את המודל לנקודת קצה עם ביצועים טובים יותר ועם יותר משאבי מכונה. כדי לבצע אופטימיזציה של העלויות, אפשר גם לפרוס את המודל לנקודת קצה עם ביצועים נמוכים יותר ופחות משאבי מכונה.

התנהגות ההתאמה להיקף

התכונה 'התאמה אוטומטית לעומס' ב-Vertex AI Inference משנה את מספר צמתי ההסקה בהתאם למספר הבקשות המקבילות. כך תוכלו להתאים את עצמכם באופן דינמי לשינויים בעומס הבקשות ולנהל את העלויות. מידע נוסף מופיע במאמר שינוי גודל של צמתים להסקת מסקנות ב-Vertex AI Inference.

המאמרים הבאים