פריסת מודלים של AI גנרטיבי

חלק מהמודלים של AI גנרטיבי, כמו Gemini, כוללים ממשקי API מנוהלים ומוכנים לקבל הנחיות בלי פריסה. רשימת המודלים עם ממשקי API מנוהלים מופיעה במאמר ממשקי API של מודלים בסיסיים.

צריך לפרוס מודלים אחרים של AI גנרטיבי לנקודת קצה לפני שהם מוכנים לקבל הנחיות. יש שני סוגים של מודלים גנרטיביים שצריך לפרוס:

כשפורסים מודל לנקודת קצה, מערכת Vertex AI משייכת למודל משאבי מחשוב ו-URI, כדי שיוכל להגיב לבקשות להנחיות.

פריסת מודל שעבר כוונון

מודלים שעברו כוונון מועלים אוטומטית למרשם המודלים של Vertex AI ונפרסים ב-endpoint ציבורי משותף של Vertex AI. מודלים שעברו התאמה לא מופיעים ב-Model Garden כי הם עברו התאמה באמצעות הנתונים שלכם. מידע נוסף זמין במאמר סקירה כללית על כוונון מודלים.

אחרי שנקודת הקצה פעילה, היא מוכנה לקבל בקשות להנחיות ב-URI שלה. הפורמט של הקריאה ל-API של מודל מכוונן זהה לפורמט של מודל הבסיס שממנו הוא כוונן. לדוגמה, אם המודל שלכם כוונן ב-Gemini, בקשת ההנחיה צריכה להיות בהתאם ל-Gemini API.

חשוב לוודא שאתם שולחים בקשות הנחיה לנקודת הקצה של המודל המכוונן ולא ל-API המנוהל. נקודת הקצה של המודל המכוונן היא בפורמט:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

כדי לקבל את מזהה נקודת הקצה, אפשר לעיין במאמר הצגה או ניהול של נקודת קצה.

מידע נוסף על הפורמט של בקשות להנחיות זמין בהפניית API של Model.

פריסת מודל גנרטיבי שאין לו API מנוהל

כדי להשתמש במודל מ-Model Garden שאין לו API מנוהל, צריך להעלות את המודל ל-Model Registry ולפרוס אותו לנקודת קצה לפני שאפשר לשלוח בקשות להנחיות. זה דומה להעלאה ולפריסה של מודל שאומן בהתאמה אישית לצורך חיזוי אונליין ב-Vertex AI.

כדי לפרוס אחד מהמודלים האלה, עוברים אל Model Garden ובוחרים את המודל שרוצים לפרוס.

כניסה ל-Model Garden

בכל כרטיס מודל מוצגת אחת או יותר מהאפשרויות הבאות לפריסה:

  • הלחצן Deploy (פריסה): לרוב המודלים הגנרטיביים ב-Model Garden יש לחצן Deploy (פריסה) שמנחה אתכם בתהליך הפריסה ב-Vertex AI. אם לא מופיע לחצן Deploy, עוברים לסעיף הבא.

    כדי לבצע פריסה ב-Vertex AI, אפשר להשתמש בהגדרות המוצעות או לשנות אותן. אפשר גם להגדיר הגדרות מתקדמות לפריסה, למשל לבחור הזמנה של Compute Engine.

  • הלחצן Open Notebook: האפשרות הזו פותחת מחברת Jupyter. האפשרות הזו מוצגת בכל כרטיס מודל. מחברת Jupyter כוללת הוראות וקוד לדוגמה להעלאת המודל למאגר המודלים, לפריסת המודל לנקודת קצה ולשליחת בקשת הנחיה.

אחרי שהפריסה מסתיימת ונקודת הקצה פעילה, היא מוכנה לקבל בקשות להנחיות ב-URI שלה. הפורמט של ה-API הוא predict והפורמט של כל instance בגוף הבקשה תלוי במודל. מידע נוסף זמין במקורות המידע הבאים:

מוודאים שיש לכם מספיק מכסה של מכונות כדי לפרוס את המודל. כדי לראות את המכסה הנוכחית או לבקש מכסה גדולה יותר, נכנסים לדף Quotas במסוף Google Cloud .

לפתיחת הדף Quotas

אחר כך מסננים לפי שם המכסה Custom Model Serving כדי לראות את המכסות של חיזוי אונליין. איך רואים ומנהלים את המכסות?

איך מבטיחים קיבולת למודלים שנפרסו באמצעות שמירת מקום ב-Compute Engine

אפשר לפרוס מודלים מ-Model Garden במשאבי מכונות וירטואליות שהוקצו באמצעות הזמנות ב-Compute Engine. הזמנות עוזרות לוודא שהקיבולת זמינה כשצריך אותה לבקשות של תחזיות המודל. מידע נוסף זמין במאמר בנושא איך שומרים מקום בעזרת תחזיות.

הצגה או ניהול של מודל

במודלים מכווננים, אפשר לראות את המודל ואת משימת הכוונון שלו בדף Tune and Distill במסוף Google Cloud .

מעבר אל 'כוונון וזיקוק'

אפשר גם לראות ולנהל את כל המודלים שהועלו ב-מרשם המודלים.

כניסה למרשם המודלים

במרשם המודלים, מודל שעבר כוונון מסווג כמודל גדול, ויש לו תוויות שמציינות את מודל הבסיס ואת צינור העיבוד או משימת הכוונון ששימשו לכוונון.

מודלים שנפרסו באמצעות הלחצן Deploy יציינו את Model Garden כSource. שימו לב: אם המודל יעודכן ב-Model Garden, המודל שהעליתם ב-מרשם המודלים לא יעודכן.

מידע נוסף זמין במאמר מבוא למרשם המודלים של Vertex AI.

הצגה או ניהול של נקודת קצה

כדי לראות ולנהל את נקודת הקצה, עוברים לדף חיזוי אונליין ב-Vertex AI. כברירת מחדל, שם נקודת הקצה זהה לשם המודל.

כניסה לתחזית אונליין

מידע נוסף זמין במאמר בנושא פריסת מודל לנקודת קצה.

מעקב אחרי תנועת הגולשים בנקודת הקצה של המודל

איך עוקבים אחרי התנועה בנקודת הקצה של המודל

מגבלות

  • אפשר לפרוס מודל Gemini מכוונן רק לנקודת קצה ציבורית משותפת. אין תמיכה בפריסה לנקודות קצה ציבוריות ייעודיות, לנקודות קצה של Private Service Connect ולנקודות קצה פרטיות.

תמחור

במודלים שעברו התאמה אישית, החיוב הוא לפי טוקן, באותו שיעור כמו במודל הבסיס שממנו בוצעה ההתאמה. אין עלות לנקודת הקצה כי הכוונון מיושם כמתאם קטן על גבי מודל הבסיס. מידע נוסף זמין במאמר בנושא תמחור של AI גנרטיבי ב-Vertex AI.

למודלים בלי ממשקי API מנוהלים, החיוב הוא לפי שעות השימוש במכונה בנקודת הקצה, באותו תעריף כמו חיזויים אונליין ב-Vertex AI. לא נחייב אתכם על כל טוקן. מידע נוסף זמין במאמר בנושא תמחור של תחזיות ב-Vertex AI.

המאמרים הבאים