בטבלאות הבאות מוצגים המודלים שתומכים בהקצאת משאבים לפי התפוקה שנקבעה, נפח התפוקה לכל יחידת קנה מידה של AI גנרטיבי (GSU) ושיעורי ה-burndown לכל מודל.
המודלים של Google
הקצאת משאבים לפי התפוקה שנקבעה תומכת רק במודלים שאליהם מתקשרים ישירות מהפרויקט באמצעות מזהה המודל הספציפי, ולא באמצעות כינוי של מודל. כדי להשתמש ב-הקצאת משאבים לפי התפוקה שנקבעה כדי לבצע קריאות ל-API של מודל, צריך להשתמש במזהה הספציפי של גרסת המודל (לדוגמה, gemini-2.0-flash-001) ולא בכינוי של גרסת המודל.
הקצאת משאבים לפי התפוקה שנקבעה מבטיחה קיבולת לבקשות של המודל, אבל היא לא כוללת מכסות של כלים אחרים שבהם אתם עשויים להשתמש, כמו הארקה, ולא עוקפת אותן. בהתאם לגודל עומס העבודה, יכול להיות שתצטרכו לבקש מכסה נוספת לכלים האלה בנפרד.
בנוסף, הקצאת משאבים לפי התפוקה שנקבעה לא תומך במודלים שמופעלים על ידי מוצרים אחרים של Vertex AI, כמו Vertex AI Agents וחיפוש מבוסס-Vertex AI. לדוגמה, אם אתם מבצעים קריאות ל-Gemini 2.0 Flash API בזמן שאתם משתמשים בחיפוש מבוסס-Vertex AI, ההזמנה שלכם של הקצאת משאבים לפי התפוקה שנקבעה ל-Gemini 2.0 Flash לא תבטיח את הקריאות שבוצעו על ידי חיפוש מבוסס-Vertex AI.
הקצאת משאבים לפי התפוקה שנקבעה לא תומכת בקריאות לחיזוי באצווה.
בטבלה הבאה מוצגים קצב העברת הנתונים, תוספת הרכישה וקצב הירידה של מודלים של Google שתומכים בהקצאת נפח אחסון. התפוקה לשנייה מוגדרת כקלט ההנחיה והפלט שנוצר בכל הבקשות לשנייה.
כדי לדעת כמה אסימונים נדרשים לעומס העבודה, אפשר לעיין בSDK tokenizer או ב-countTokens API.
| מודל | קצב העברת נתונים לשנייה לכל GSU | יחידות | הגדלה מינימלית של רכישת GSU | שיעורי התקדמות |
|---|---|---|---|---|
|
הגרסה הנתמכת העדכנית: |
4030 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 2 טוקנים 1 טוקן של טקסט קלט שנשמר במטמון = 0.1 טוקנים 1 טוקן של תמונת קלט שנשמרה במטמון = 0.1 טוקנים 1 טוקן של סרטון קלט שנשמר במטמון = 0.1 טוקנים 1 טוקן של אודיו קלט שנשמר במטמון = 0.2 טוקנים 1 טוקן של טקסט פלט = 6 טוקנים |
|
הגרסה הנתמכת העדכנית: |
2015 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של טקסט פלט = 6 טוקנים 1 טוקן של תמונת פלט = 120 טוקנים |
|
הגרסה הנתמכת העדכנית: |
500 | טוקנים | 1 |
פחות מ-200,000 טוקנים של קלט: 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 1 טוקן 1 טוקן של קלט ממטמון = 0.1 טוקנים 1 טוקן של טקסט תגובה של פלט = 6 טוקנים 1 טוקן של טקסט חשיבה רציונלית של פלט = 6 טוקנים יותר מ-200,000 טוקנים של קלט: 1 טוקן של טקסט קלט = 2 טוקנים 1 טוקן של תמונת קלט = 2 טוקנים 1 טוקן של סרטון קלט = 2 טוקנים 1 טוקן של אודיו קלט = 2 טוקנים 1 טוקן של קלט ממטמון = 0.2 טוקנים 1 טוקן של טקסט תגובה של פלט = 9 טוקנים 1 טוקן של טקסט חשיבה רציונלית של פלט = 9 טוקנים |
|
הגרסה הנתמכת העדכנית: |
2015 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 2 טוקנים 1 טוקן של טקסט, תמונה או סרטון קלט בשמירה במטמון = 0.1 טוקנים 1 טוקן של אודיו קלט בשמירה במטמון = 0.2 טוקנים 1 טוקן של טקסט תגובה בפלט = 6 טוקנים 1 טוקן של טקסט חשיבה רציונלית בפלט = 6 טוקנים |
|
הגרסה הנתמכת העדכנית: |
500 | טוקנים | 1 |
פחות מ-200,000 טוקנים של קלט: 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 1 טוקן 1 טוקן של טקסט תגובה של פלט = 6 טוקנים 1 טוקן של טקסט חשיבה רציונלית של פלט = 6 טוקנים יותר מ-200,000 טוקנים של קלט: 1 טוקן של טקסט קלט = 2 טוקנים 1 טוקן של תמונת קלט = 2 טוקנים 1 טוקן של סרטון קלט = 2 טוקנים 1 טוקן של אודיו קלט = 2 טוקנים 1 טוקן של טקסט תגובה של פלט = 9 טוקנים 1 טוקן של טקסט חשיבה רציונלית של פלט = 9 טוקנים |
|
הגרסה הנתמכת העדכנית: |
500 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של טקסט פלט = 6 טוקנים 1 טוקן של פלט חשיבה = 6 טוקנים 1 טוקן של תמונת פלט = 60 טוקנים |
|
הגרסה הנתמכת האחרונה: |
650 | טוקנים | 1 |
פחות מ-200,000 טוקנים של קלט: טוקן אחד של טקסט קלט = טוקן אחד טוקן אחד של תמונת קלט = טוקן אחד טוקן אחד של סרטון קלט = טוקן אחד טוקן אחד של אודיו קלט = טוקן אחד טוקן אחד של טקסט תגובה של פלט = 8 טוקנים טוקן אחד של טקסט חשיבה רציונלית של פלט = 8 טוקנים יותר מ-200,000 טוקנים של קלט: טוקן אחד של טקסט קלט = 2 טוקנים טוקן אחד של תמונת קלט = 2 טוקנים טוקן אחד של סרטון קלט = 2 טוקנים טוקן אחד של אודיו קלט = 2 טוקנים טוקן אחד של טקסט תגובה של פלט = 12 טוקנים טוקן אחד של טקסט חשיבה רציונלית של פלט = 12 טוקנים |
|
הגרסה הנתמכת האחרונה: |
2,690 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של טקסט פלט = 9 טוקנים 1 טוקן של תמונת פלט = 100 טוקנים |
|
הגרסה הנתמכת האחרונה: |
2690 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 4 טוקנים 1 טוקן של טקסט תגובה בפלט = 9 טוקנים 1 טוקן של טקסט חשיבה רציונלית בפלט = 9 טוקנים |
|
הגרסה הנתמכת העדכנית (GA): הגרסה הנתמכת העדכנית (תצוגה מקדימה): |
8,070 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 3 טוקנים 1 טוקן של טקסט תגובה בפלט = 4 טוקנים 1 טוקן של טקסט חשיבה רציונלית בפלט = 4 טוקנים |
|
Gemini 2.5 Flash עם אודיו מקורי של Gemini Live API הגרסה הנתמכת האחרונה: |
1,620 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של אודיו קלט = 6 טוקנים 1 טוקן של סרטון קלט = 6 טוקנים 1 טוקן של תמונה קלט = 6 טוקנים 1 טוקן של זיכרון סשן קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים 1 טוקן של אודיו פלט = 24 טוקנים |
|
הגרסה הנתמכת האחרונה: |
3,360 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של סרטון קלט = 1 טוקן 1 טוקן של אודיו קלט = 7 טוקנים 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
6,720 | טוקנים | 1 |
1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונה בקלט = 1 טוקן 1 טוקן של סרטון בקלט = 1 טוקן 1 טוקן של אודיו בקלט = 1 טוקן 1 טוקן של טקסט בפלט = 4 טוקנים |
הגרסה הנתמכת האחרונה: |
0.0040 | שניות צפייה בסרטון | 1 | שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו |
| משך סרטון ואודיו – שניות | 1 | שנייה אחת של פלט וידאו + אודיו = 2 שניות של פלט וידאו | ||
הגרסה הנתמכת האחרונה: |
0.0080 | שניות צפייה בסרטון | 1 | שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו |
| משך סרטון ואודיו – שניות | 1 | שנייה אחת של סרטון+אודיו בתוצאה = 1.45 שניות של סרטון בתוצאה | ||
הגרסה הנתמכת האחרונה: |
0.0040 | שניות צפייה בסרטון | 1 | שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו |
| משך סרטון ואודיו – שניות | 1 | שנייה אחת של פלט וידאו + אודיו = 2 שניות של פלט וידאו | ||
הגרסה הנתמכת האחרונה: |
0.0080 | שניות צפייה בסרטון | 1 | שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו |
| משך סרטון ואודיו – שניות | 1 | שנייה אחת של סרטון+אודיו בתוצאה = 1.45 שניות של סרטון בתוצאה | ||
|
|
0.02 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
|
|
0.015 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
|
|
0.02 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
|
|
0.04 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
|
|
0.02 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
|
|
0.025 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
|
|
0.05 | תמונות | 1 | רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה. |
מידע על היכולות של מודל ועל מגבלות הקלט או הפלט זמין במסמכי העזרה של המודל.
אתם יכולים לשדרג למודלים חדשים כשהם יהיו זמינים. מידע על זמינות המודלים ותאריכי ההוצאה משימוש מופיע במאמר מודלים של Google.
מידע נוסף על מיקומים נתמכים זמין במאמר מיקומים זמינים.
מודלים של השותפים
בטבלה הבאה מוצגים קצב העברת הנתונים, תוספת הרכישה וקצב הירידה של מודלים של שותפים שתומכים בהקצאת משאבים לפי התפוקה שנקבעה. מודלים של Claude נמדדים בטוקנים לשנייה, שמוגדרים כסך כל הטוקנים של הקלט והפלט בכל הבקשות לשנייה.
| מודל | התפוקה לכל GSU (טוקנים/שנייה) | רכישת מינימום של GSU | הגדלת מספר המשתמשים ב-GSU | שיעורי התקדמות |
|---|---|---|---|---|
| Anthropic Claude Sonnet 4.6 | 350 | 25 | 1 | פחות מ-200,000 טוקנים של קלט: טוקן קלט אחד = טוקן אחד טוקן פלט אחד = 5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים טוקן אחד של גישה למטמון = 0.1 טוקן 200,000 טוקנים של קלט או יותר: טוקן קלט אחד = 2 טוקנים טוקן פלט אחד = 7.5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים טוקן אחד של גישה למטמון = 0.2 טוקן |
| Anthropic's Claude Opus 4.6 | 210 | 35 | 1 | פחות מ-200,000 טוקנים של קלט: טוקן קלט אחד = טוקן אחד טוקן פלט אחד = 5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים טוקן אחד של גישה למטמון = 0.1 טוקן 200,000 טוקנים של קלט או יותר: טוקן קלט אחד = 2 טוקנים טוקן פלט אחד = 7.5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים טוקן אחד של גישה למטמון = 0.2 טוקן |
| Anthropic Claude Opus 4.5 | 210 | 35 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים 1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים 1 טוקן של היט במטמון = 0.1 טוקן |
| Anthropic's Claude Sonnet 4.5 | 350 | 25 | 1 | פחות מ-200,000 טוקנים של קלט: טוקן קלט אחד = טוקן אחד טוקן פלט אחד = 5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים טוקן אחד של גישה למטמון = 0.1 טוקן 200,000 טוקנים של קלט או יותר: טוקן קלט אחד = 2 טוקנים טוקן פלט אחד = 7.5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים טוקן אחד של גישה למטמון = 0.2 טוקן |
| Anthropic Claude Opus 4.1 | 70 | 35 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים 1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים 1 טוקן של היט במטמון = 0.1 טוקן |
| Anthropic Claude Haiku 4.5 | 1,050 | 8 | 1 | פחות מ-200,000 טוקנים של קלט: 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים 1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים 1 טוקן של פגיעה במטמון = 0.1 טוקן |
| Anthropic's Claude Opus 4 | 70 | 35 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים 1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים 1 טוקן של היט במטמון = 0.1 טוקן |
| Anthropic Claude Sonnet 4 | 350 | 25 | 1 | פחות מ-200,000 טוקנים של קלט: טוקן קלט אחד = טוקן אחד טוקן פלט אחד = 5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים טוקן אחד של גישה למטמון = 0.1 טוקן 200,000 טוקנים של קלט או יותר: טוקן קלט אחד = 2 טוקנים טוקן פלט אחד = 7.5 טוקנים טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים טוקן אחד של גישה למטמון = 0.2 טוקן |
| Anthropic's Claude 3.7 Sonnet (הוצא משימוש) | 350 | 25 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים 1 טוקן פגיעה במטמון = 0.1 טוקן |
| Claude 3.5 Sonnet v2 של Anthropic (הוצא משימוש) | 350 | 25 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים 1 טוקן פגיעה במטמון = 0.1 טוקן |
| Anthropic Claude 3.5 Haiku (הוצא משימוש) | 2,000 | 10 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים 1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים 1 טוקן של היט במטמון = 0.1 טוקן |
| Anthropic Claude 3 Opus | 70 | 35 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים 1 טוקן פגיעה במטמון = 0.1 טוקן |
| Anthropic Claude 3 Haiku (הוצא משימוש) | 4,200 | 5 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים 1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים 1 טוקן של היט במטמון = 0.1 טוקן |
| Anthropic Claude 3.5 Sonnet (הוצא משימוש) | 350 | 25 | 1 | 1 טוקן קלט = 1 טוקן 1 טוקן פלט = 5 טוקנים 1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים 1 טוקן פגיעה במטמון = 0.1 טוקן |
מידע על מיקומים נתמכים זמין במאמר זמינות אזור Anthropic Claude. כדי להזמין הקצאת משאבים לפי התפוקה שנקבעה למודלים של Anthropic, צריך לפנות אל Google Cloud איש הקשר האחראי לחשבון.
מודלים פתוחים
בטבלה הבאה מוצגים נתוני התפוקה, הגידול ברכישה ושיעורי הירידה של מודלים פתוחים שתומכים בהקצאת משאבים לפי התפוקה שנקבעה.
| מודל | התפוקה לכל GSU (טוקנים/שנייה) | רכישת מינימום של GSU | הגדלת מספר המשתמשים ב-GSU | שיעורי התקדמות |
|---|---|---|---|---|
|
הגרסה הנתמכת האחרונה: |
3,360 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
1,680 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
1,680 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
1,400 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 1 טוקן |
|
הגרסה הנתמכת האחרונה: |
2,800 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
4,035 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של תמונת קלט = 1 טוקן 1 טוקן של טקסט פלט = 3 טוקנים |
|
הגרסה הנתמכת האחרונה: |
3,360 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
11,205 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
14,405 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
4,035 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
1,010 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
6,725 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 8 טוקנים |
|
הגרסה הנתמכת האחרונה: |
6,725 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 8 טוקנים |
|
הגרסה הנתמכת האחרונה: |
1,685 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 4 טוקנים |
|
הגרסה הנתמכת האחרונה: |
1,010 | 1 | 1 | 1 טוקן של טקסט קלט = 1 טוקן 1 טוקן של טקסט פלט = 3 טוקנים |
יכולות זמינות למודלים של Google ולמודלים פתוחים
בטבלה הבאה מפורטות היכולות שזמינות עם הקצאת משאבים לפי התפוקה שנקבעה למודלים של Google ולמודלים פתוחים:
| יכולת | המודלים של Google | מודלים פתוחים (גרסת Preview) |
|---|---|---|
| הזמנה דרך מסוף Google Cloud | כן | כן |
| תמיכה בנקודות קצה גלובליות | מידע נוסף על תמיכה במודל של נקודות קצה גלובליות | מידע נוסף על תמיכה במודל של נקודות קצה גלובליות |
| תמיכה במודלים שעברו כוונון עדין מונחה | כן | לא |
| תמיכה בשימוש במפתחות API | כן | לא |
| משולב עם שמירת מטמון של הקשר משתמע | כן | לא רלוונטי |
| משולב עם שמירת מטמון של הקשרים מפורשים | כן | לא רלוונטי |
| עיבוד באמצעות למידת מכונה | זמין באזורים מסוימים. לפרטים נוספים, ראה Single Zone Provisioned Throughput. | לא רלוונטי |
| תנאי הזמנה זמינים | שבוע, חודש, 3 חודשים ושנה | שבוע, חודש, 3 חודשים ושנה |
| שינוי הזמנה דרך המסוף | כן | לא |
| סטטוסים של הזמנות: בהמתנה לבדיקה, אושרה, פעילה, פג תוקף | כן | כן |
| חריגות מהמכסה מועברות כברירת מחדל לתשלום לפי שימוש | כן | כן |
| שליטה בכותרת ה-API: משתמשים בערך 'ייעודי' כדי להשתמש רק ברוחב פס שהוקצה, או בערך 'משותף' כדי להשתמש רק בתשלום לפי שימוש | כן | כן |
| מעקב: מדדים, לוחות בקרה והתראות | כן | כן |
תמיכה במודל של נקודת קצה גלובלית
הקצאת משאבים לפי התפוקה שנקבעה תומכת בנקודת הקצה הגלובלית עבור מודלים של Google ומודלים פתוחים.
כברירת מחדל, תנועה שחורגת ממכסת הקצאת המשאבים לפי התפוקה שנקבעה משתמשת בנקודת הקצה הגלובלית.
כדי להקצות הקצאת משאבים לפי התפוקה שנקבעה לנקודת הקצה הגלובלית של מודל, בוחרים באפשרות global כאזור כשמבצעים הזמנה של הקצאת משאבים לפי התפוקה שנקבעה.
מודלים של Google עם תמיכה בנקודת קצה גלובלית
בטבלה הבאה מפורטים המודלים של Google שבהם יש תמיכה בנקודת הקצה הגלובלית של הקצאת משאבים לפי התפוקה שנקבעה:
| דגם | הגרסה הנתמכת האחרונה של המודל |
|---|---|
| Gemini 3.1 Flash-Lite תצוגה מקדימה | gemini-3.1-flash-lite-preview |
| Gemini 3.1 Flash Image גרסת טרום-השקה | gemini-3.1-flash-image-preview |
| Gemini 3.1 Pro תצוגה מקדימה | gemini-3.1-pro-preview |
| Gemini 3 Flash תצוגה מקדימה | gemini-3-flash-preview |
| Gemini 3 Pro תצוגה מקדימה | gemini-3-pro-preview |
| Gemini 3 Pro Image תצוגה מקדימה | gemini-3-pro-image-preview |
| Gemini 2.5 Pro | gemini-2.5-pro |
| Gemini 2.5 Flash preview | gemini-2.5-flash-preview-09-2025 |
| Gemini 2.5 Flash-Lite preview | gemini-2.5-flash-lite-preview-09-2025 |
| Gemini 2.5 Flash Image | gemini-2.5-flash-image |
| Gemini 2.5 Flash | gemini-2.5-flash |
| Gemini 2.5 Flash-Lite | gemini-2.5-flash-lite |
| Gemini 2.0 Flash | gemini-2.0-flash-001 |
| Gemini 2.0 Flash-Lite | gemini-2.0-flash-lite-001 |
מודלים פתוחים עם תמיכה בנקודת קצה גלובלית
בטבלה הבאה מפורטים המודלים הפתוחים שבהם יש תמיכה בנקודת הקצה הגלובלית של Provisioned Throughput:
| מודל | הגרסה העדכנית הנתמכת של המודל |
|---|---|
| DeepSeek-OCR | deepseek-ocr-maas |
| DeepSeek-V3.2 | deepseek-v3.2-maas |
| Kimi K2 Thinking | kimi-k2-thinking-maas |
| MiniMax M2 | minimax-m2-maas |
| OpenAI gpt-oss 120B | gpt-oss-120b-maas |
| Qwen3-Next-80B Instruct | qwen3-next-80b-a3b-instruct-maas |
| Qwen3-Next-80B Thinking | qwen3-next-80b-a3b-thinking-maas |
| GLM 4.7 | glm-4.7-maas |
| GLM 5 | glm-5-maas |
תמיכה במודלים שעברו כוונון עדין בפיקוח
התכונות הבאות נתמכות במודלים של Google שתומכים בכוונון מפוקח (SFT):
אפשר להחיל את הקצאת המשאבים לפי התפוקה שנקבעה גם על מודלים בסיסיים וגם על גרסאות של המודלים הבסיסיים האלה שעברו כוונון עדין בפיקוח.
נקודות קצה של מודלים שעברו כוונון עדין בפיקוח ומספר מודלי הבסיס התואמים שלהם נכללים באותה מכסת הקצאת משאבים לפי התפוקה שנקבעה.
לדוגמה, אם רכשתם הקצאת משאבים לפי התפוקה שנקבעה עבור
gemini-2.0-flash-lite-001לפרויקט ספציפי, בקשות שמוגשות מגרסאות מפוקחות שלgemini-2.0-flash-lite-001שעברו התאמה אישית ונוצרו במסגרת הפרויקט הזה יקבלו עדיפות. משתמשים בכותרת המתאימה כדי לשלוט בהתנהגות התנועה.