מודלים נתמכים

בטבלאות הבאות מוצגים המודלים שתומכים בהקצאת משאבים לפי התפוקה שנקבעה, נפח התפוקה לכל יחידת קנה מידה של AI גנרטיבי (GSU) ושיעורי ה-burndown לכל מודל.

המודלים של Google

הקצאת משאבים לפי התפוקה שנקבעה תומכת רק במודלים שאליהם מתקשרים ישירות מהפרויקט באמצעות מזהה המודל הספציפי, ולא באמצעות כינוי של מודל. כדי להשתמש ב-הקצאת משאבים לפי התפוקה שנקבעה כדי לבצע קריאות ל-API של מודל, צריך להשתמש במזהה הספציפי של גרסת המודל (לדוגמה, gemini-2.0-flash-001) ולא בכינוי של גרסת המודל.

הקצאת משאבים לפי התפוקה שנקבעה מבטיחה קיבולת לבקשות של המודל, אבל היא לא כוללת מכסות של כלים אחרים שבהם אתם עשויים להשתמש, כמו הארקה, ולא עוקפת אותן. בהתאם לגודל עומס העבודה, יכול להיות שתצטרכו לבקש מכסה נוספת לכלים האלה בנפרד.

בנוסף, הקצאת משאבים לפי התפוקה שנקבעה לא תומך במודלים שמופעלים על ידי מוצרים אחרים של Vertex AI, כמו Vertex AI Agents וחיפוש מבוסס-Vertex AI. לדוגמה, אם אתם מבצעים קריאות ל-Gemini 2.0 Flash API בזמן שאתם משתמשים בחיפוש מבוסס-Vertex AI, ההזמנה שלכם של הקצאת משאבים לפי התפוקה שנקבעה ל-Gemini 2.0 Flash לא תבטיח את הקריאות שבוצעו על ידי חיפוש מבוסס-Vertex AI.

הקצאת משאבים לפי התפוקה שנקבעה לא תומכת בקריאות לחיזוי באצווה.

בטבלה הבאה מוצגים קצב העברת הנתונים, תוספת הרכישה וקצב הירידה של מודלים של Google שתומכים בהקצאת נפח אחסון. התפוקה לשנייה מוגדרת כקלט ההנחיה והפלט שנוצר בכל הבקשות לשנייה.

כדי לדעת כמה אסימונים נדרשים לעומס העבודה, אפשר לעיין בSDK tokenizer או ב-countTokens API.

מודל קצב העברת נתונים לשנייה לכל GSU יחידות הגדלה מינימלית של רכישת GSU שיעורי התקדמות

Gemini 3.1 Flash-Lite

הגרסה הנתמכת העדכנית: gemini-3.1-flash-lite-preview (תצוגה מקדימה)

4030 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של סרטון קלט = 1 טוקן
‫1 טוקן של אודיו קלט = 2 טוקנים
‫1 טוקן של טקסט קלט שנשמר במטמון = 0.1 טוקנים
‫1 טוקן של תמונת קלט שנשמרה במטמון = 0.1 טוקנים
‫1 טוקן של סרטון קלט שנשמר במטמון = 0.1 טוקנים
‫1 טוקן של אודיו קלט שנשמר במטמון = 0.2 טוקנים
‫1 טוקן של טקסט פלט = 6 טוקנים

Gemini 3.1 Flash Image

הגרסה הנתמכת העדכנית: gemini-3.1-flash-image-preview (תצוגה מקדימה)

2015 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 6 טוקנים
‫1 טוקן של תמונת פלט = 120 טוקנים

Gemini 3.1 Pro

הגרסה הנתמכת העדכנית: gemini-3.1-pro-preview (תצוגה מקדימה)

500 טוקנים 1 פחות מ-200,000 טוקנים של קלט:
1 טוקן של טקסט קלט = 1 טוקן
1 טוקן של תמונת קלט = 1 טוקן
1 טוקן של סרטון קלט = 1 טוקן
1 טוקן של אודיו קלט = 1 טוקן
1 טוקן של קלט ממטמון = 0.1 טוקנים
1 טוקן של טקסט תגובה של פלט = 6 טוקנים
1 טוקן של טקסט חשיבה רציונלית של פלט = 6 טוקנים

יותר מ-200,000 טוקנים של קלט:
1 טוקן של טקסט קלט = 2 טוקנים
1 טוקן של תמונת קלט = 2 טוקנים
1 טוקן של סרטון קלט = 2 טוקנים
1 טוקן של אודיו קלט = 2 טוקנים
1 טוקן של קלט ממטמון = 0.2 טוקנים
1 טוקן של טקסט תגובה של פלט = 9 טוקנים
1 טוקן של טקסט חשיבה רציונלית של פלט = 9 טוקנים

Gemini 3 Flash

הגרסה הנתמכת העדכנית: gemini-3-flash-preview (תצוגה מקדימה)

2015 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של סרטון קלט = 1 טוקן
‫1 טוקן של אודיו קלט = 2 טוקנים
‫1 טוקן של טקסט, תמונה או סרטון קלט בשמירה במטמון = 0.1 טוקנים
‫1 טוקן של אודיו קלט בשמירה במטמון = 0.2 טוקנים
‫1 טוקן של טקסט תגובה בפלט = 6 טוקנים
‫1 טוקן של טקסט חשיבה רציונלית בפלט = 6 טוקנים

Gemini 3 Pro

הגרסה הנתמכת העדכנית: gemini-3-pro-preview (תצוגה מקדימה)

500 טוקנים 1 פחות מ-200,000 טוקנים של קלט:
1 טוקן של טקסט קלט = 1 טוקן
1 טוקן של תמונת קלט = 1 טוקן
1 טוקן של סרטון קלט = 1 טוקן
1 טוקן של אודיו קלט = 1 טוקן
1 טוקן של טקסט תגובה של פלט = 6 טוקנים
1 טוקן של טקסט חשיבה רציונלית של פלט = 6 טוקנים

יותר מ-200,000 טוקנים של קלט:
1 טוקן של טקסט קלט = 2 טוקנים
1 טוקן של תמונת קלט = 2 טוקנים
1 טוקן של סרטון קלט = 2 טוקנים
1 טוקן של אודיו קלט = 2 טוקנים
1 טוקן של טקסט תגובה של פלט = 9 טוקנים
1 טוקן של טקסט חשיבה רציונלית של פלט = 9 טוקנים

Gemini 3 Pro Image

הגרסה הנתמכת העדכנית: gemini-3-pro-image-preview (תצוגה מקדימה)

500 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 6 טוקנים
‫1 טוקן של פלט חשיבה = 6 טוקנים
‫1 טוקן של תמונת פלט = 60 טוקנים

Gemini 2.5 Pro

הגרסה הנתמכת האחרונה: gemini-2.5-pro

650 טוקנים 1 פחות מ-200,000 טוקנים של קלט:
טוקן אחד של טקסט קלט = טוקן אחד
טוקן אחד של תמונת קלט = טוקן אחד
טוקן אחד של סרטון קלט = טוקן אחד
טוקן אחד של אודיו קלט = טוקן אחד
טוקן אחד של טקסט תגובה של פלט = 8 טוקנים
טוקן אחד של טקסט חשיבה רציונלית של פלט = 8 טוקנים

יותר מ-200,000 טוקנים של קלט:
טוקן אחד של טקסט קלט = 2 טוקנים
טוקן אחד של תמונת קלט = 2 טוקנים
טוקן אחד של סרטון קלט = 2 טוקנים
טוקן אחד של אודיו קלט = 2 טוקנים
טוקן אחד של טקסט תגובה של פלט = 12 טוקנים
טוקן אחד של טקסט חשיבה רציונלית של פלט = 12 טוקנים

Gemini 2.5 Flash Image

הגרסה הנתמכת האחרונה: gemini-2.5-flash-image

2,690 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 9 טוקנים
‫1 טוקן של תמונת פלט = 100 טוקנים

Gemini 2.5 Flash

הגרסה הנתמכת האחרונה: gemini-2.5-flash

2690 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של סרטון קלט = 1 טוקן
‫1 טוקן של אודיו קלט = 4 טוקנים
‫1 טוקן של טקסט תגובה בפלט = 9 טוקנים
‫1 טוקן של טקסט חשיבה רציונלית בפלט = 9 טוקנים

Gemini 2.5 Flash-Lite

הגרסה הנתמכת העדכנית (GA): gemini-2.5-flash-lite

הגרסה הנתמכת העדכנית (תצוגה מקדימה): gemini-2.5-flash-lite-preview-09-2025

8,070 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של סרטון קלט = 1 טוקן
‫1 טוקן של אודיו קלט = 3 טוקנים
‫1 טוקן של טקסט תגובה בפלט = 4 טוקנים
‫1 טוקן של טקסט חשיבה רציונלית בפלט = 4 טוקנים

Gemini 2.5 Flash עם אודיו מקורי של Gemini Live API

הגרסה הנתמכת האחרונה: gemini-live-2.5-flash-native-audio

1,620 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של אודיו קלט = 6 טוקנים
‫1 טוקן של סרטון קלט = 6 טוקנים
‫1 טוקן של תמונה קלט = 6 טוקנים
‫1 טוקן של זיכרון סשן קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים
‫1 טוקן של אודיו פלט = 24 טוקנים

Gemini 2.0 Flash

הגרסה הנתמכת האחרונה: gemini-2.0-flash-001

3,360 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של סרטון קלט = 1 טוקן
‫1 טוקן של אודיו קלט = 7 טוקנים
‫1 טוקן של טקסט פלט = 4 טוקנים

Gemini 2.0 Flash-Lite

הגרסה הנתמכת האחרונה: gemini-2.0-flash-lite-001

6,720 טוקנים 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונה בקלט = 1 טוקן
‫1 טוקן של סרטון בקלט = 1 טוקן
‫1 טוקן של אודיו בקלט = 1 טוקן
‫1 טוקן של טקסט בפלט = 4 טוקנים

Veo 3.1

הגרסה הנתמכת האחרונה: veo-3.1-generate-001

‫0.0040 שניות צפייה בסרטון 1 שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו
משך סרטון ואודיו – שניות 1 שנייה אחת של פלט וידאו + אודיו = 2 שניות של פלט וידאו

Veo 3.1 Fast

הגרסה הנתמכת האחרונה: veo-3.1-fast-generate-001

0.0080 שניות צפייה בסרטון 1 שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו
משך סרטון ואודיו – שניות 1 שנייה אחת של סרטון+אודיו בתוצאה = 1.45 שניות של סרטון בתוצאה

Veo 3

הגרסה הנתמכת האחרונה: veo-3.0-generate-001

‫0.0040 שניות צפייה בסרטון 1 שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו
משך סרטון ואודיו – שניות 1 שנייה אחת של פלט וידאו + אודיו = 2 שניות של פלט וידאו

Veo 3 Fast

הגרסה הנתמכת האחרונה: veo-3.0-fast-generate-001

0.0080 שניות צפייה בסרטון 1 שנייה אחת של פלט וידאו = שנייה אחת של פלט וידאו
משך סרטון ואודיו – שניות 1 שנייה אחת של סרטון+אודיו בתוצאה = 1.45 שניות של סרטון בתוצאה

Virtual Try-On 001

virtual-try-on-001

0.02 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

יצירה באמצעות Imagen 4 Ultra

imagen-4.0-ultra-generate-001

0.015 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

‫Imagen 4 Generate

imagen-4.0-generate-001

0.02 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

Imagen 4 Fast Generate

imagen-4.0-fast-generate-001

0.04 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

Imagen 3 Generate 002

imagen-3.0-generate-002

0.02 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

Imagen 3 Generate 001

imagen-3.0-generate-001

0.025 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

Imagen 3 Fast

imagen-3.0-fast-generate-001

0.05 תמונות 1 רק תמונות פלט נכללות במכסת הקצאת המשאבים לפי התפוקה שנקבעה.

מידע על היכולות של מודל ועל מגבלות הקלט או הפלט זמין במסמכי העזרה של המודל.

אתם יכולים לשדרג למודלים חדשים כשהם יהיו זמינים. מידע על זמינות המודלים ותאריכי ההוצאה משימוש מופיע במאמר מודלים של Google.

מידע נוסף על מיקומים נתמכים זמין במאמר מיקומים זמינים.

מודלים של השותפים

בטבלה הבאה מוצגים קצב העברת הנתונים, תוספת הרכישה וקצב הירידה של מודלים של שותפים שתומכים בהקצאת משאבים לפי התפוקה שנקבעה. מודלים של Claude נמדדים בטוקנים לשנייה, שמוגדרים כסך כל הטוקנים של הקלט והפלט בכל הבקשות לשנייה.

מודל התפוקה לכל GSU (טוקנים/שנייה) רכישת מינימום של GSU הגדלת מספר המשתמשים ב-GSU שיעורי התקדמות
‫Anthropic Claude Sonnet 4.6 350 25 1 פחות מ-200,000 טוקנים של קלט:
טוקן קלט אחד = טוקן אחד
טוקן פלט אחד = 5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים
טוקן אחד של גישה למטמון = 0.1 טוקן

200,000 טוקנים של קלט או יותר:
טוקן קלט אחד = 2 טוקנים
טוקן פלט אחד = 7.5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים
טוקן אחד של גישה למטמון = 0.2 טוקן
‫Anthropic's Claude Opus 4.6 210 35 1 פחות מ-200,000 טוקנים של קלט:
טוקן קלט אחד = טוקן אחד
טוקן פלט אחד = 5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים
טוקן אחד של גישה למטמון = 0.1 טוקן

200,000 טוקנים של קלט או יותר:
טוקן קלט אחד = 2 טוקנים
טוקן פלט אחד = 7.5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים
טוקן אחד של גישה למטמון = 0.2 טוקן
‫Anthropic Claude Opus 4.5 210 35 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים
‫1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים
‫1 טוקן של היט במטמון = 0.1 טוקן
‫Anthropic's Claude Sonnet 4.5 350 25 1 פחות מ-200,000 טוקנים של קלט:
טוקן קלט אחד = טוקן אחד
טוקן פלט אחד = 5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים
טוקן אחד של גישה למטמון = 0.1 טוקן

200,000 טוקנים של קלט או יותר:
טוקן קלט אחד = 2 טוקנים
טוקן פלט אחד = 7.5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים
טוקן אחד של גישה למטמון = 0.2 טוקן
‫Anthropic Claude Opus 4.1 70 35 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים
‫1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים
‫1 טוקן של היט במטמון = 0.1 טוקן
‫Anthropic Claude Haiku 4.5 ‫1,050 8 1 פחות מ-200,000 טוקנים של קלט:
1 טוקן קלט = 1 טוקן
1 טוקן פלט = 5 טוקנים
1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים
1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים
1 טוקן של פגיעה במטמון = 0.1 טוקן
‫Anthropic's Claude Opus 4 70 35 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים
‫1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים
‫1 טוקן של היט במטמון = 0.1 טוקן
‫Anthropic Claude Sonnet 4 350 25 1 פחות מ-200,000 טוקנים של קלט:
טוקן קלט אחד = טוקן אחד
טוקן פלט אחד = 5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 2 טוקנים
טוקן אחד של גישה למטמון = 0.1 טוקן

200,000 טוקנים של קלט או יותר:
טוקן קלט אחד = 2 טוקנים
טוקן פלט אחד = 7.5 טוקנים
טוקן אחד של כתיבה למטמון למשך 5 דקות = 2.5 טוקנים
טוקן אחד של כתיבה למטמון למשך שעה = 4 טוקנים
טוקן אחד של גישה למטמון = 0.2 טוקן
‫Anthropic's Claude 3.7 Sonnet (הוצא משימוש) 350 25 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
‫1 טוקן פגיעה במטמון = 0.1 טוקן
‫Claude 3.5 Sonnet v2 של Anthropic (הוצא משימוש) 350 25 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
‫1 טוקן פגיעה במטמון = 0.1 טוקן
‫Anthropic Claude 3.5 Haiku (הוצא משימוש) 2,000 10 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים
‫1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים
‫1 טוקן של היט במטמון = 0.1 טוקן
‫Anthropic Claude 3 Opus 70 35 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
‫1 טוקן פגיעה במטמון = 0.1 טוקן
‫Anthropic Claude 3 Haiku (הוצא משימוש) 4,200 5 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 כתיבה למטמון של טוקן למשך 5 דקות = 1.25 טוקנים
‫1 כתיבה למטמון של טוקן למשך שעה = 2 טוקנים
‫1 טוקן של היט במטמון = 0.1 טוקן
‫Anthropic Claude 3.5 Sonnet (הוצא משימוש) 350 25 1 ‫1 טוקן קלט = 1 טוקן
‫1 טוקן פלט = 5 טוקנים
‫1 טוקן כתיבה למטמון למשך 5 דקות = 1.25 טוקנים
‫1 טוקן פגיעה במטמון = 0.1 טוקן

מידע על מיקומים נתמכים זמין במאמר זמינות אזור Anthropic Claude. כדי להזמין הקצאת משאבים לפי התפוקה שנקבעה למודלים של Anthropic, צריך לפנות אל Google Cloud איש הקשר האחראי לחשבון.

מודלים פתוחים

בטבלה הבאה מוצגים נתוני התפוקה, הגידול ברכישה ושיעורי הירידה של מודלים פתוחים שתומכים בהקצאת משאבים לפי התפוקה שנקבעה.

מודל התפוקה לכל GSU (טוקנים/שנייה) רכישת מינימום של GSU הגדלת מספר המשתמשים ב-GSU שיעורי התקדמות

DeepSeek-OCR

הגרסה הנתמכת האחרונה: deepseek-ocr-maas

3,360 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

DeepSeek-V3.2

הגרסה הנתמכת האחרונה: deepseek-v3.2-maas

1,680 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

Kimi K2 Thinking

הגרסה הנתמכת האחרונה: kimi-k2-thinking-maas

1,680 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

Llama 3.3 70B

הגרסה הנתמכת האחרונה: llama-3.3-70b-instruct-maas

1,400 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 1 טוקן

Llama 4 Maverick 17B-128E

הגרסה הנתמכת האחרונה: llama-4-maverick-17b-128e-instruct-maas

2,800 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

Llama 4 Scout 17B-16E

הגרסה הנתמכת האחרונה: llama-4-scout-17b-16e-instruct-maas

4,035 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של תמונת קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 3 טוקנים

MiniMax M2

הגרסה הנתמכת האחרונה: minimax-m2-maas

3,360 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

OpenAI gpt-oss 120B

הגרסה הנתמכת האחרונה: gpt-oss-120b-maas

11,205 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

OpenAI gpt-oss 20B

הגרסה הנתמכת האחרונה: gpt-oss-20b-maas

14,405 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

Qwen3 235B

הגרסה הנתמכת האחרונה: qwen3-235b-a22b-instruct-2507-maas

4,035 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

Qwen3 Coder

הגרסה הנתמכת האחרונה: qwen3-coder-480b-a35b-instruct-maas

1,010 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

Qwen3-Next-80B Instruct

הגרסה הנתמכת האחרונה: qwen3-next-80b-a3b-instruct-maas

6,725 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 8 טוקנים

Qwen3-Next-80B Thinking

הגרסה הנתמכת האחרונה: qwen3-next-80b-a3b-thinking-maas

6,725 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 8 טוקנים

GLM 4.7

הגרסה הנתמכת האחרונה: glm-4.7-maas

1,685 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 4 טוקנים

GLM 5

הגרסה הנתמכת האחרונה: glm-5-maas

1,010 1 1 ‫1 טוקן של טקסט קלט = 1 טוקן
‫1 טוקן של טקסט פלט = 3 טוקנים

יכולות זמינות למודלים של Google ולמודלים פתוחים

בטבלה הבאה מפורטות היכולות שזמינות עם הקצאת משאבים לפי התפוקה שנקבעה למודלים של Google ולמודלים פתוחים:

יכולת המודלים של Google מודלים פתוחים (גרסת Preview)
הזמנה דרך מסוף Google Cloud כן כן
תמיכה בנקודות קצה גלובליות מידע נוסף על תמיכה במודל של נקודות קצה גלובליות מידע נוסף על תמיכה במודל של נקודות קצה גלובליות
תמיכה במודלים שעברו כוונון עדין מונחה כן לא
תמיכה בשימוש במפתחות API כן לא
משולב עם שמירת מטמון של הקשר משתמע כן לא רלוונטי
משולב עם שמירת מטמון של הקשרים מפורשים כן לא רלוונטי
עיבוד באמצעות למידת מכונה זמין באזורים מסוימים. לפרטים נוספים, ראה Single Zone Provisioned Throughput. לא רלוונטי
תנאי הזמנה זמינים שבוע, חודש, 3 חודשים ושנה שבוע, חודש, 3 חודשים ושנה
שינוי הזמנה דרך המסוף כן לא
סטטוסים של הזמנות: בהמתנה לבדיקה, אושרה, פעילה, פג תוקף כן כן
חריגות מהמכסה מועברות כברירת מחדל לתשלום לפי שימוש כן כן
שליטה בכותרת ה-API: משתמשים בערך 'ייעודי' כדי להשתמש רק ברוחב פס שהוקצה, או בערך 'משותף' כדי להשתמש רק בתשלום לפי שימוש כן כן
מעקב: מדדים, לוחות בקרה והתראות כן כן

תמיכה במודל של נקודת קצה גלובלית

הקצאת משאבים לפי התפוקה שנקבעה תומכת בנקודת הקצה הגלובלית עבור מודלים של Google ומודלים פתוחים.

כברירת מחדל, תנועה שחורגת ממכסת הקצאת המשאבים לפי התפוקה שנקבעה משתמשת בנקודת הקצה הגלובלית.

כדי להקצות הקצאת משאבים לפי התפוקה שנקבעה לנקודת הקצה הגלובלית של מודל, בוחרים באפשרות global כאזור כשמבצעים הזמנה של הקצאת משאבים לפי התפוקה שנקבעה.

מודלים של Google עם תמיכה בנקודת קצה גלובלית

בטבלה הבאה מפורטים המודלים של Google שבהם יש תמיכה בנקודת הקצה הגלובלית של הקצאת משאבים לפי התפוקה שנקבעה:

דגם הגרסה הנתמכת האחרונה של המודל
Gemini 3.1 Flash-Lite תצוגה מקדימה gemini-3.1-flash-lite-preview
Gemini 3.1 Flash Image גרסת טרום-השקה gemini-3.1-flash-image-preview
Gemini 3.1 Pro תצוגה מקדימה gemini-3.1-pro-preview
Gemini 3 Flash תצוגה מקדימה gemini-3-flash-preview
Gemini 3 Pro תצוגה מקדימה gemini-3-pro-preview
Gemini 3 Pro Image תצוגה מקדימה gemini-3-pro-image-preview
Gemini 2.5 Pro gemini-2.5-pro
Gemini 2.5 Flash preview gemini-2.5-flash-preview-09-2025
Gemini 2.5 Flash-Lite preview gemini-2.5-flash-lite-preview-09-2025
Gemini 2.5 Flash Image gemini-2.5-flash-image
Gemini 2.5 Flash gemini-2.5-flash
Gemini 2.5 Flash-Lite gemini-2.5-flash-lite
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.0 Flash-Lite gemini-2.0-flash-lite-001

מודלים פתוחים עם תמיכה בנקודת קצה גלובלית

בטבלה הבאה מפורטים המודלים הפתוחים שבהם יש תמיכה בנקודת הקצה הגלובלית של Provisioned Throughput:

מודל הגרסה העדכנית הנתמכת של המודל
DeepSeek-OCR deepseek-ocr-maas
DeepSeek-V3.2 deepseek-v3.2-maas
Kimi K2 Thinking kimi-k2-thinking-maas
MiniMax M2 minimax-m2-maas
‫OpenAI gpt-oss 120B gpt-oss-120b-maas
Qwen3-Next-80B Instruct qwen3-next-80b-a3b-instruct-maas
Qwen3-Next-80B Thinking qwen3-next-80b-a3b-thinking-maas
‫GLM 4.7 glm-4.7-maas
GLM 5 glm-5-maas

תמיכה במודלים שעברו כוונון עדין בפיקוח

התכונות הבאות נתמכות במודלים של Google שתומכים בכוונון מפוקח (SFT):

  • אפשר להחיל את הקצאת המשאבים לפי התפוקה שנקבעה גם על מודלים בסיסיים וגם על גרסאות של המודלים הבסיסיים האלה שעברו כוונון עדין בפיקוח.

  • נקודות קצה של מודלים שעברו כוונון עדין בפיקוח ומספר מודלי הבסיס התואמים שלהם נכללים באותה מכסת הקצאת משאבים לפי התפוקה שנקבעה.

    לדוגמה, אם רכשתם הקצאת משאבים לפי התפוקה שנקבעה עבור gemini-2.0-flash-lite-001 לפרויקט ספציפי, בקשות שמוגשות מגרסאות מפוקחות של gemini-2.0-flash-lite-001 שעברו התאמה אישית ונוצרו במסגרת הפרויקט הזה יקבלו עדיפות. משתמשים בכותרת המתאימה כדי לשלוט בהתנהגות התנועה.

המאמרים הבאים