מודלים פתוחים של Vertex AI ל-MaaS

‫Vertex AI תומך ברשימה שנבחרה בקפידה של מודלים פתוחים כמודלים מנוהלים. אפשר להשתמש במודלים הפתוחים האלה עם Vertex AI בתור מודל כשירות (MaaS) והם מוצעים בתור ממשק API מנוהל. כשמשתמשים במודל קוד פתוח מנוהל, ממשיכים לשלוח את הבקשות לנקודות הקצה של Vertex AI. מודלים פתוחים מנוהלים הם בלי שרת (serverless), כך שלא צריך לספק או לנהל תשתית.

אפשר למצוא מודלים פתוחים מנוהלים באמצעות Model Garden. אפשר גם לפרוס מודלים באמצעות Model Garden. מידע נוסף זמין במאמר הכרת מודלים של AI ב-Model Garden.

כדי להשתמש במודלים פתוחים, צריך להעניק למשתמשים גישה למודלים פתוחים.

מודלים פתוחים

המודלים הפתוחים הבאים מוצעים בתור ממשקי API מנוהלים ב-Vertex AI Model Garden (MaaS):

שם הדגם אופן הפעולה תיאור מדריך למתחילים
DeepSeek-OCR שפה, ראייה מודל מקיף לזיהוי תווים אופטי (OCR) שמנתח ומבין מסמכים מורכבים. הוא מצטיין במשימות OCR מאתגרות. כרטיס מודל
DeepSeek R1 (0528) שפה הגרסה האחרונה של מודל DeepSeek R1 של DeepSeek. כרטיס מודל
DeepSeek-V3.1 שפה מודל היברידי של DeepSeek שתומך גם במצב חשיבה וגם במצב ללא חשיבה. כרטיס מודל
DeepSeek-V3.2 שפה מודל של DeepSeek שמשלב בין יעילות חישובית גבוהה לבין חשיבה רציונלית וביצועים מעולים של סוכנים. כרטיס מודל
‫GLM 4.7 שפה, קוד המודל של GLM מיועד לתכנות ליבה או לתכנות בשיטת Vibe coding, לשימוש בכלים ולחשיבה רציונלית מורכבת. כרטיס מודל
GLM 5 שפה, קוד מודל GLM שמיועד להנדסת מערכות מורכבות ולמשימות ארוכות טווח של סוכנים. כרטיס מודל
gpt-oss 120B שפה מודל עם 120 מיליארד פרמטרים שמציע ביצועים גבוהים במשימות של חשיבה רציונלית. כרטיס מודל
gpt-oss 20B שפה מודל של 20 מיליארד פרמטרים שעבר אופטימיזציה ליעילות ולפריסה בציוד קצה ובציוד לצרכנים. כרטיס מודל
Kimi K2 Thinking שפה מודל של סוכן חשיבה בקוד פתוח שחושב באופן רציונלי שלב אחר שלב ומשתמש בכלים כדי לפתור בעיות מורכבות. כרטיס מודל
Llama 3.3 שפה ‫Llama 3.3 הוא מודל עם 70 מיליארד פרמטרים שעבר כוונון לפי הוראות, ויוצר טקסט בלבד. הוא מספק ביצועים משופרים בהשוואה ל-Llama 3.1 70B ול-Llama 3.2 90B כשמשתמשים בו באפליקציות שיוצרות טקסט בלבד. בנוסף, בחלק מהאפליקציות, הביצועים של Llama 3.3 70B קרובים לביצועים של Llama 3.1 405B. כרטיס מודל
Llama 4 Maverick 17B-128E שפה, ראייה מודל Llama 4 הכי גדול והכי מתקדם, עם יכולות קידוד, הסקת מסקנות ותמונות. ‫Llama 4 Maverick 17B-128E הוא מודל מולטימודאלי שמשתמש בארכיטקטורת Mixture-of-Experts ‏ (MoE) ובשילוב מוקדם. כרטיס מודל
Llama 4 Scout 17B-16E שפה, ראייה ‫Llama 4 Scout 17B-16E מספק תוצאות מתקדמות ביחס לגודל שלו, ועולה בביצועים על דורות קודמים של Llama ועל מודלים אחרים קנייניים ופתוחים בכמה מדדים. ‫Llama 4 Scout 17B-16E הוא מודל רב-אופני שמשתמש בארכיטקטורה של שילוב מומחים (MoE) ובשילוב מוקדם. כרטיס מודל
MiniMax M2 שפה, קוד יכולת התמודדות עם משימות שקשורות לקוד ולסוכנים, עם יכולות חזקות בתכנון וביצוע של משימות מורכבות שדורשות שימוש בכלים. כרטיס מודל
Qwen3 235B שפה מודל עם משקלים פתוחים עם יכולת של 'חשיבה היברידית' למעבר בין חשיבה שיטתית לבין שיחה מהירה. כרטיס מודל
Qwen3 Coder שפה, קוד מודל עם משקלים פתוחים שפותח למשימות מתקדמות של פיתוח תוכנה. כרטיס מודל
Qwen3-Next-80B Instruct שפה, קוד מודל ממשפחת המודלים Qwen3-Next, שמתמחה בביצוע פקודות ספציפיות. כרטיס מודל
Qwen3-Next-80B Thinking שפה, קוד מודל ממשפחת המודלים Qwen3-Next, שמתמחה בפתרון בעיות מורכבות ובהסקת מסקנות מעמיקה. כרטיס מודל

מודלים פתוחים להטמעה מוצעים כממשקי API מנוהלים ב-Vertex AI Model Garden ‏ (MaaS):

שם הדגם תיאור מידות הפלט אורך מקסימלי של רצף שפות טקסט נתמכות מדריך למתחילים
multilingual-e5-small חלק ממשפחת מודלים להטמעת טקסט E5. הגרסה הקטנה מכילה 12 שכבות. עד 384 ‫512 טוקנים שפות נתמכות כרטיס מודל
multilingual-e5-large חלק ממשפחת מודלים להטמעת טקסט E5. הווריאנט Large מכיל 24 שכבות. עד 1024 ‫512 טוקנים שפות נתמכות כרטיס מודל

עמידה בדרישות רגולטוריות של מודלים פתוחים

האישורים של AI גנרטיבי ב-Vertex AI ממשיכים לחול כשמשתמשים במודלים פתוחים בתור API מנוהל באמצעות Vertex AI. אם אתם צריכים פרטים על המודלים עצמם, תוכלו למצוא מידע נוסף בכרטיס המודל המתאים, או ליצור קשר עם מפרסם המודל המתאים.

הנתונים שלכם מאוחסנים במצב מנוחה באזור או במספר אזורים שנבחרו למודלים פתוחים ב-Vertex AI, אבל יכול להיות שעיבוד הנתונים יתבצע באזורים שונים. רשימה מפורטת של התחייבויות בנוגע לעיבוד נתונים של מודלים פתוחים מופיעה במאמר מיקום הנתונים של מודלים פתוחים.

ההנחיות של הלקוח והתשובות של המודל לא משותפות עם צדדים שלישיים כשמשתמשים ב-Vertex AI API, כולל מודלים פתוחים. ‫Google מעבדת נתוני לקוחות רק בהתאם להוראות הלקוח, כפי שמתואר בפירוט בנספח לעיבוד נתונים ב-Cloud.

שמירה במטמון של הקשר

שמירת הקשר במטמון עוזרת להקטין את העלות ואת זמן האחזור של בקשות למודלים פתוחים שמכילים תוכן שחוזר על עצמו. התכונה הזו מופעלת רק כשמשתמשים בתנועה לפי תשלום, ולא תומכת בסוגי תנועה אחרים, כמו הקצאת משאבים לפי התפוקה שנקבעה ו-Batch.

סוג השמירה במטמון הנתמך הוא שמירה מרומזת במטמון, שהיא שמירה אוטומטית במטמון שמופעלת כברירת מחדל בכל הפרויקטים של Google Cloud . כשמתרחשים מציאות במטמון, השמירה הזו במטמון מספקת הנחה של 90% על טוקנים שנשמרו במטמון בהשוואה לטוקנים רגילים של קלט. בסוג הזה של שמירה במטמון, לא מגדירים את המטמון ולא קוראים לו באופן מפורש. במקום זאת, הקצה העורפי שלנו שולף מהמטמון הזה ברגע שמזוהה הקשר חוזר.

מודלים נתמכים

  • qwen3-coder-480b-a35b-instruct-maas
  • kimi-k2-thinking-maas
  • minimax-m2-maas
  • gpt-oss-20b-maas
  • deepseek-v3.1-maas
  • deepseek-v3.2-maas

השדה cachedContentTokenCount במטא-נתונים של התשובה מציין את מספר הטוקנים בחלק שנשמר במטמון של הקלט. בקשות לשמירה במטמון צריכות לכלול לפחות 4,096 טוקנים (המספר הזה עשוי להשתנות במהלך תקופת התצוגה המקדימה).

כשהאפשרות הזו מופעלת, החיסכון בעלויות שנובע ממציאה במטמון (cache hit) מועבר אליכם באופן אוטומטי. אין ערובה לפגיעות במטמון, והן תלויות בבקשות שנשלחות ובגורמים אחרים. כדי להגדיל את הסיכויים לפגיעה במטמון משתמע, אפשר לנסות את הפעולות הבאות:

  • כדאי להציב תוכן גדול ונפוץ בתחילת ההנחיה.
  • שליחת בקשות עם קידומת דומה בפרק זמן קצר.

המאמרים הבאים