נקודת קצה ציבורית ייעודית היא נקודת קצה ציבורית להסקת מסקנות אונליין. היתרונות של התכונה הזו:
- רשת ייעודית: כששולחים בקשת הסקה לנקודת קצה ציבורית ייעודית, היא מבודדת מהתנועה של משתמשים אחרים.
- זמן אחזור אופטימלי ברשת
- תמיכה במטען ייעודי (payload) גדול יותר: עד 10MB.
- זמן קצוב לתפוגה ארוך יותר של בקשות: אפשר להגדיר עד שעה.
- מוכן ל-AI גנרטיבי: יש תמיכה בסטרימינג וב-gRPC. אפשר להגדיר את הזמן הקצוב לתפוגה של ההסקה עד שעה.
לכן, מומלץ להשתמש בנקודות קצה ציבוריות ייעודיות כדי להפעיל מסקנות אונליין ב-Vertex AI.
מידע נוסף זמין במאמר בחירת סוג נקודת קצה.
יצירת נקודת קצה ייעודית שגלוי לכולם ופריסת מודל בה
אפשר ליצור נקודת קצה ייעודית ולפרוס אליה מודל באמצעות מסוףGoogle Cloud . פרטים נוספים זמינים במאמר בנושא פריסת מודל באמצעות מסוף Google Cloud .
אפשר גם ליצור נקודת קצה ציבורית ייעודית ולפרוס אליה מודל באמצעות Vertex AI API באופן הבא:
- יצירת נקודת קצה ציבורית ייעודית. הגדרה של זמן קצוב לתפוגה להסקת מסקנות והגדרות של רישום ביומן של בקשות ותגובות נתמכת בזמן יצירת נקודת הקצה.
- פורסים את המודל באמצעות Vertex AI API.
קבלת מסקנות אונליין מנקודת קצה ציבורית ייעודית
נקודות קצה ייעודיות תומכות בפרוטוקולי התקשורת HTTP ו-gRPC. בבקשות gRPC, צריך לכלול את הכותרת x-vertex-ai-endpoint-id כדי לזהות את נקודת הקצה בצורה נכונה. יש תמיכה בממשקי ה-API הבאים:
- חיזוי
- RawPredict
- StreamRawPredict
- השלמת צ'אט (רק ב-Model Garden)
אתם יכולים לשלוח בקשות להסקת מסקנות אונליין לנקודת קצה ציבורית ייעודית באמצעות Vertex AI SDK ל-Python. פרטים נוספים זמינים במאמר שליחת בקשת הסקה אונליין לנקודת קצה ציבורית ייעודית.
מדריך
מגבלות
- אין תמיכה בפריסה של מודלים של Gemini שעברו התאמה.
- אין תמיכה ב-VPC Service Controls. במקום זאת, אפשר להשתמש בנקודת קצה של Private Service Connect.
המאמרים הבאים
- מידע על סוגי נקודות קצה של Vertex AI online inference