למודלים מסוימים של AI גנרטיבי, כמו Gemini, יש ממשקי API מנוהלים והם מוכנים לקבל הנחיות בלי פריסה. רשימה של מודלים עם ממשקי API מנוהלים זמינה במאמר ממשקי API של מודלים בסיסיים.
צריך לפרוס מודלים אחרים של AI גנרטיבי לנקודת קצה לפני שהם מוכנים לקבל הנחיות. יש שני סוגים של מודלים גנרטיביים שצריך לפרוס:
מודלים שעברו התאמה, שיוצרים על ידי התאמה של מודל בסיסי נתמך באמצעות הנתונים שלכם.
מודלים גנרטיביים שאין להם ממשקי API מנוהלים. ב-Model Garden, אלה מודלים שלא מסומנים בתווית API available (זמין דרך API) או Agent Platform Studio (Agent Platform Studio) – למשל, Llama 2.
כשפורסים מודל לנקודת קצה, Gemini Enterprise Agent Platform משייכת למודל משאבי מחשוב ומזהה URI, כדי שהמודל יוכל להגיב לבקשות הנחיות.
פריסת מודל שעבר כוונון
מודלים שעברו כוונון מועלים אוטומטית אל Gemini Enterprise Agent Platform מרשם המודלים ונפרסים ב-Agent Platform shared public endpoint. מודלים שעברו התאמה לא מופיעים ב-Model Garden כי הם עברו התאמה באמצעות הנתונים שלכם.
מידע נוסף זמין במאמר סקירה כללית על כוונון מודלים.
אחרי שנקודת הקצה פעילה, היא מוכנה לקבל בקשות להנחיות ב-URI שלה. הפורמט של הקריאה ל-API של מודל מכוונן זהה לפורמט של מודל הבסיס שממנו הוא כוונן. לדוגמה, אם המודל שלכם כוונן ב-Gemini, בקשת ההנחיה צריכה להיות בהתאם ל-Gemini API.
חשוב לשלוח בקשות הנחיות לנקודת הקצה של המודל המכוונן ולא ל-API המנוהל. נקודת הקצה של המודל המכוונן היא בפורמט:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
כדי לקבל את מזהה נקודת הקצה, אפשר לעיין במאמר הצגה או ניהול של נקודת קצה.
פריסת מודל גנרטיבי שאין לו API מנוהל
כדי להשתמש במודל מ-Model Garden שאין לו API מנוהל, צריך להעלות את המודל ל-Model Registry ולפרוס אותו לנקודת קצה לפני ששולחים בקשות להנחיות. זה דומה להעלאה ולפריסה של מודל מאומן בהתאמה אישית לחיזוי אונליין ב-Agent Platform.
כדי לפרוס אחד מהמודלים האלה, עוברים אל Model Garden ובוחרים את המודל שרוצים לפרוס.
בכל כרטיס מודל מוצגת אחת או יותר מהאפשרויות הבאות לפריסה:
לחצן Deploy (פריסה): לרוב המודלים הגנרטיביים ב-Model Garden יש לחצן Deploy (פריסה) שמנחה אתכם בתהליך הפריסה ב-Agent Platform. אם לא רואים את הלחצן Deploy, עוברים לסעיף הבא.
כדי לפרוס את התוסף ב-Agent Platform, אפשר להשתמש בהגדרות המוצעות או לשנות אותן. אפשר גם להגדיר הגדרות פריסה מתקדמות, למשל לבחור מקום שמור של Compute Engine.
הלחצן Open Notebook: האפשרות הזו פותחת מחברת Jupyter. האפשרות הזו מוצגת בכל כרטיס מודל. מחברת Jupyter כוללת הוראות וקוד לדוגמה להעלאת המודל למאגר המודלים, לפריסת המודל לנקודת קצה ולשליחת בקשת הנחיה.
אחרי שהפריסה מסתיימת ונקודת הקצה פעילה, היא מוכנה לקבל בקשות להנחיות ב-URI שלה. הפורמט של ה-API הוא
predict והפורמט של כל instance
בגוף הבקשה תלוי במודל. מידע נוסף זמין במקורות המידע הבאים:
מוודאים שיש לכם מספיק מכסה של מכונות כדי לפרוס את המודל. כדי לראות את המכסה הנוכחית או לבקש מכסה גדולה יותר, נכנסים לדף Quotas במסוף Google Cloud .
אחר כך מסננים לפי שם המכסה Custom Model Serving כדי לראות את המכסות של תחזיות אונליין. מידע נוסף זמין במאמר איך רואים ומנהלים את המכסות.
איך מבטיחים קיבולת למודלים שנפרסו באמצעות שמירת מקום ב-Compute Engine
אפשר לפרוס מודלים מ-Model Garden במשאבי מכונות וירטואליות שהוקצו באמצעות הזמנות ב-Compute Engine. הזמנות עוזרות לוודא שהקיבולת זמינה כשצריך אותה לבקשות של תחזיות המודל. מידע נוסף זמין במאמר בנושא איך שומרים מקום בעזרת תחזיות.
הצגה או ניהול של מודל
במודלים מכווננים, אפשר לראות את המודל ואת משימת הכוונון שלו בדף Tune and Distill במסוף Google Cloud .
אפשר גם לראות ולנהל את כל המודלים שהועלו ב-מרשם המודלים.
במרשם המודלים, מודל שעבר כוונון מסווג כמודל גדול, ויש לו תוויות שמציינות את מודל הבסיס ואת צינור העיבוד או משימת הכוונון ששימשו לכוונון.
מודלים שנפרסו באמצעות הלחצן Deploy יציינו את Model Garden בתור Source שלהם. שימו לב שאם המודל יעודכן ב-Model Garden, המודל שהועלה ב-Model Registry לא יעודכן.
מידע נוסף זמין במאמר מבוא למאגר המודלים של פלטפורמת הסוכנים של Gemini Enterprise.
הצגה או ניהול של נקודת קצה
כדי לראות ולנהל את נקודת הקצה, עוברים לדף Online prediction ב-Agent Platform. כברירת מחדל, שם נקודת הקצה זהה לשם המודל.
מידע נוסף זמין במאמר בנושא פריסת מודל לנקודת קצה.
מעקב אחרי תנועת הגולשים בנקודת הקצה של המודל
במאמר מעקב אחרי מודלים מוסבר איך לעקוב אחרי התנועה בנקודת הקצה של המודל.
מגבלות
- אפשר לפרוס מודל Gemini שעבר התאמה רק לנקודת קצה ציבורית משותפת. פריסה לנקודות קצה ציבוריות ייעודיות, לנקודות קצה של Private Service Connect ולנקודות קצה פרטיות לא נתמכת.
תמחור
במקרה של מודלים שעברו התאמה, החיוב הוא לפי טוקן, באותו שיעור כמו מודל הבסיס שממנו בוצעה ההתאמה של המודל. אין עלות לנקודת הקצה כי הכוונון מיושם כמתאם קטן על גבי מודל הבסיס.
במודלים ללא ממשקי API מנוהלים, החיוב הוא לפי שעות המכונה שבהן נעשה שימוש בנקודת הקצה, באותו תעריף כמו תחזיות אונליין של Agent Platform. לא נחייב אתכם על כל טוקן. מידע נוסף זמין במאמר בנושא תמחור של תחזיות בפלטפורמת הסוכנים.