תשלום לפי שימוש (Standard PayGo) הוא אפשרות צריכה לשימוש בחבילת המודלים של AI גנרטיבי של Vertex AI, כולל משפחות המודלים Gemini ו-Imagen ב-Vertex AI. במסגרת התוכנית הרגילה של PayGo, אתם משלמים רק על המשאבים שאתם צורכים, בלי התחייבויות כספיות מראש. כדי לספק ביצועים צפויים יותר לעומסי עבודה שניתנים להרחבה, במסלול הרגיל של PayGo משולבת מערכת של רמות שימוש. Vertex AI מתאים באופן דינמי את קיבולת התפוקה הבסיסית של הארגון על סמך ההוצאה הכוללת על שירותים כשירים של Vertex AI במהלך תקופה של 30 ימים. ככל שההוצאות של הארגון גדלות, הוא מקודם אוטומטית לרמות גבוהות יותר שמאפשרות גישה רחבה יותר למשאבים משותפים ולספי ביצועים גבוהים יותר.
רמות שימוש ותפוקה
כל רמת שימוש בתמחור הרגיל לפי שימוש נועדה לספק תפוקה בסיסית, שנמדדת בטוקנים לדקה (TPM), ומשמשת כרף ביצועים צפוי לתנועה של הארגון שלכם. מגבלות התפוקה מבוססות על בקשות שנשלחות לנקודת הקצה הגלובלית. שימוש בנקודת הקצה הגלובלית הוא שיטה מומלצת, כי היא מספקת גישה למאגר גדול יותר של קיבולת תפוקה במספר אזורים, ומאפשרת לנתב את הבקשות למיקום עם הזמינות הגבוהה ביותר כדי למקסם את הביצועים.
התנועה שלכם לא מוגבלת באופן מוחלט למגבלת קצב העברת הנתונים הבסיסי. ב-Vertex AI, נפח התנועה יכול לעלות על המגבלה הזו על בסיס מאמץ מרבי. עם זאת, בתקופות של ביקוש גבוה בפלטפורמת Vertex AI, יכול להיות שהביצועים של תנועת הגולשים העודפת הזו יהיו יותר משתנים. כדי לשפר את הביצועים ולצמצם את הסיכוי לקבלת השגיאות האלה, מומלץ גם לפזר את התנועה בצורה אחידה ככל האפשר במהלך כל דקה. לא לשלוח בקשות בזינוקים חדים ברמה השנייה. תנועה גבוהה ומהירה יכולה להוביל להגבלת קצב הבקשות גם אם השימוש הממוצע שלכם בדקה נמוך מהמגבלה. חלוקה שווה יותר של קריאות ה-API עוזרת למערכת לנהל את העומס בצורה צפויה ולשפר את הביצועים הכוללים.
החבילות הבאות זמינות בתוכנית PayGo הרגילה:
| משפחה שנקראת | רמה | הוצאות של לקוחות (30 ימים) | תנועה (TPM) ברמת הארגון |
|---|---|---|---|
| מודלים של Gemini Pro | רמה 1 | 10$ – 250$ | 500,000 |
| קבוצה 2 | 250$ – 2,000$ | 1,000,000 | |
| שכבה 3 | > $2000 | 2,000,000 | |
| מודלים של Gemini Flash ו-Flash-Lite | רמה 1 | 10$ – 250$ | 2,000,000 |
| קבוצה 2 | 250$ – 2,000$ | 4,000,000 | |
| שכבה 3 | > $2000 | 10,000,000 |
שימו לב: מגבלת התפוקה שמוצגת למשפחת מודלים חלה בנפרד על כל מודל במשפחה הזו. לדוגמה, לקוח ברמה 3 נהנה מרוחב פס בסיסי של 10,000,000 TPM ל-Gemini 2.5 Flash, ורוחב פס בסיסי נפרד של 10,000,000 TPM ל-Gemini 2.0 Flash. השימוש באחד מהמודלים האלה לא משפיע על קצב העברת הנתונים של מודלים אחרים. אין מגבלה נפרדת על מספר הבקשות לדקה (RPM) לכל רמה. עם זאת, חלה מגבלת המערכת של 30,000 בקשות לדקה לכל מודל בכל אזור. בקשות ל-Gemini עם קלט מולטי-מודאלי כפופות למגבלות התעריפים התואמות של המערכת, כולל תמונה, אודיו, סרטון ומסמך.
אם אתם צריכים תפוקה גבוהה יותר לתרחיש שימוש ארגוני, אתם יכולים לפנות לצוות ניהול החשבון כדי לקבל מידע נוסף על רמה מותאמת אישית.
איך פועלות רמות השימוש
רמת השימוש נקבעת באופן אוטומטי לפי ההוצאה הכוללת של הארגון על שירותי Vertex AI שעומדים בדרישות, במהלך תקופה של 30 ימים. ככל שההוצאות של הארגון שלכם גדלות, המערכת מעבירה אתכם לרמה גבוהה יותר עם תפוקה גבוהה יותר.
חישוב ההוצאות
החישוב הזה כולל מגוון רחב של שירותים, החל מחיזויים בכל משפחות המודלים של Gemini ועד למכונות וירטואליות של CPU, GPU ו-TPU ב-Vertex AI, וגם מק"טים שמבוססים על התחייבות, כמו הקצאת משאבים לפי התפוקה שנקבעה.
אפשר ללחוץ כדי לקבל מידע נוסף על המק"טים שכלולים בחישוב ההוצאות.
בטבלה הבאה מפורטות הקטגוריות של Google Cloud המק"טים שנכללים בחישוב של ההוצאה הכוללת.
| קטגוריה | תיאור המק"טים הכלולים |
|---|---|
| המודלים של Gemini | כל משפחות המודלים של Gemini (למשל, 2.0, 2.5, 3.0 בגרסאות Pro, Flash ו-Lite) לחיזויים בכל הקטגוריות (טקסט, תמונה, אודיו, וידאו), כולל וריאציות של אצווה, הקשר ארוך, כוונון ו'חשיבה' |
| התכונות של המודלים של Gemini | כל המק"טים הרלוונטיים של Gemini לתכונות כמו שמירה במטמון, אחסון במטמון ורמות עדיפות, בכל האופנים ובכל גרסאות המודלים |
| Vertex AI CPU | תחזיות אונליין ותחזיות באצווה בכל קבוצות המכונות שמבוססות על CPU (למשל, C2, C3, E2, N1, N2 והווריאציות שלהן) |
| Vertex AI GPU | תחזיות אונליין ותחזיות באצווה בכל המקרים שבהם נעשה שימוש ב-GPU של NVIDIA להאצת הביצועים (לדוגמה, סדרות A100, H100, H200, B200, L4, T4, V100 ו-RTX) |
| Vertex AI TPU | תחזיות אונליין ותחזיות באצווה בכל המכונות שמבוססות על TPU (למשל, TPU-v5e, v6e) |
| ניהול ועמלות | כל המק"טים של 'דמי ניהול' שמשויכים למופעים שונים של חיזוי Vertex AI |
| Provisioned Throughput | כל המק"טים של התחייבות להקצאת משאבים לפי התפוקה שנקבעה |
| שירותים נוספים | שירותים ייעודיים כמו 'LLM Grounding for Gemini... with Google Search tool' |
אימות רמת השימוש
כדי לבדוק את רמת השימוש בארגון, עוברים אל לוח הבקרה של Vertex AI במסוף Google Cloud .
אימות ההוצאות
כדי לבדוק את ההוצאות ב-Vertex AI, נכנסים לחיוב ב-Cloud במסוףGoogle Cloud . הערה: ההוצאות נצברות ברמת הארגון.
שגיאות של עומס על משאבים (429)
אם מופיעה השגיאה 429, זה לא אומר שהגעתם למכסה קבועה.
היא מציינת שיש תחרות זמנית גבוהה על משאב משותף ספציפי. אנחנו ממליצים להטמיע אסטרטגיית ניסיון חוזר עם השהיה מעריכית (exponential backoff) כדי לטפל בשגיאות האלה, כי הזמינות בסביבה הדינמית הזו יכולה להשתנות במהירות. בנוסף לאסטרטגיה לניסיונות חוזרים, מומלץ להשתמש בנקודת הקצה הגלובלית. בניגוד לנקודת קצה אזורית (לדוגמה, us-central1), נקודת הקצה הגלובלית מנתבת את הבקשות באופן דינמי לאזור עם הקיבולת הזמינה הגדולה ביותר באותו רגע. כך האפליקציה יכולה לגשת למאגר גדול יותר של קיבולת משותפת בכמה אזורים, מה שמגדיל משמעותית את הסיכוי להצלחת השימוש בקיבולת עודפת ומקטין את הסבירות לשגיאות 429.
כדי לקבל את התוצאות הטובות ביותר, מומלץ לשלב בין השימוש בנקודת הקצה הגלובלית לבין החלקת התנועה. מומלץ להימנע משליחת בקשות בעומסים חדים ברמה השנייה, כי עומס גבוה ומידי עלול להוביל לוויסות, גם אם השימוש הממוצע שלכם בדקה נמצא בתוך מגבלת התפוקה הבסיסית. פיזור אחיד יותר של קריאות ה-API עוזר למערכת לנהל את העומס בצורה צפויה ומשפר את הביצועים הכוללים. מידע נוסף על טיפול בשגיאות של ניצול יתר של משאבים זמין במאמרים מדריך לטיפול בשגיאות 429 וקוד שגיאה 429.
מודלים נתמכים
המודלים הבאים של Gemini שזמינים לכלל המשתמשים (GA) והמודלים שלהם שעברו התאמה עדינה מפוקחת תומכים בתשלום לפי שימוש רגיל עם רמות שימוש:
המודלים הבאים של Gemini ב-GA והמודלים שעברו כוונון עדין בפיקוח שלהם תומכים גם בשיטת התשלום הרגילה לפי שימוש, אבל רמות השימוש לא חלות על המודלים האלה:
חשוב לזכור שהרמות האלה לא חלות על מודלים בתצוגה מקדימה. כדי לקבל את המידע הכי מדויק ועדכני, מומלץ לעיין במסמכי התיעוד הרשמיים של כל מודל.
מעקב אחרי נפח התעבורה והביצועים
כדי לעקוב אחרי צריכת הטוקנים בזמן אמת בארגון, עוברים אל Metrics Explorer ב-Cloud Monitoring.
מידע נוסף על מעקב אחר תנועת נתונים בנקודות קצה של מודלים זמין במאמר מעקב אחר מודלים.
שימו לב: רמות השימוש חלות ברמת הארגון. מידע על הגדרת היקף הנראות כדי לשרטט את קצב העברת הנתונים בכמה פרויקטים בארגון זמין במאמר הגדרת היקפי נראות לשאילתות בכמה פרויקטים.
המאמרים הבאים
מכסות ומגבלות של Vertex AI
מכסות ומגבלות שקשורות לפלטפורמת Vertex AI, לא כולל מגבלות ספציפיות למוצרים.
מיכסות ב-Google Cloud
מידע על האופן שבו Google Cloud מגביל את כמות המשאבים שפרויקט בענן שלכם יכול להשתמש בהם, ועל האופן שבו מכסות חלות על מגוון סוגי משאבים, כולל רכיבי חומרה, תוכנה ורשתות.