מעבר למודלים העדכניים ביותר של Gemini

במדריך הזה מוסבר איך לעדכן את האפליקציה לגרסה העדכנית של Gemini. במדריך הזה אנחנו מניחים שהאפליקציה שלכם כבר משתמשת בגרסה ישנה יותר של Gemini. כדי ללמוד איך להתחיל להשתמש ב-Gemini ב-Vertex AI, אפשר לעיין במדריך לתחילת העבודה עם Gemini API ב-Vertex AI.

במדריך הזה לא מוסבר איך להעביר את האפליקציה מ-Vertex AI SDK ל-Google Gen AI SDK הנוכחי. מידע נוסף זמין במדריך להעברת נתונים של Vertex AI SDK.

אילו שינויים צפויים?

כדי לעדכן את רוב האפליקציות של AI גנרטיבי לגרסה העדכנית של Gemini, צריך לבצע שינויים קלים בקוד או בהנחיות. עם זאת, יכול להיות שיהיה צורך לבצע התאמות בהנחיות באפליקציות מסוימות. קשה לחזות את השינויים האלה בלי לבדוק קודם את ההנחיות שלכם בגרסה החדשה. מומלץ לבצע בדיקות יסודיות לפני מעבר מלא. טיפים ליצירת הנחיות יעילות מפורטים במדריך שלנו לאסטרטגיית הנחיות. כדי למצוא ולפתור בעיות בהנחיות, אפשר להשתמש ברשימת הבדיקה שלנו לבדיקת תקינות ההנחיות.

צריך לבצע שינויים משמעותיים בקוד רק במקרים של שינויים שגורמים לבעיות או כדי להשתמש ביכולות חדשות של Gemini.

לאיזה מודל Gemini כדאי לעבור?

מודל Gemini שבו אתם משתמשים תלוי בצרכים של האפליקציה שלכם. בטבלה הבאה מוצגת השוואה בין מודלים ישנים יותר של Gemini 1.5 לבין המודלים העדכניים של Gemini:

תכונה 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite 3 Flash 3 Pro 3.1 Pro
שלב ההשקה GA GA GA GA GA תצוגה מקדימה תצוגה מקדימה תצוגה מקדימה
אופני קלט
Text, Code, Images, Audio, Video
Text, Code, Images, Audio, Video
Text, Code, Images, Audio, Video
Text, Code, Images, Audio, Video
Text, Code, Images, Audio, Video
טקסט, קוד, תמונות, אודיו, סרטון, PDF
טקסט, קוד, תמונות, אודיו, סרטון, PDF
טקסט, קוד, תמונות, אודיו, סרטון, PDF
אופנויות פלט
Text
Text
Text
Text
Text
Text
Text
Text
חלון הקשר, מגבלת הטוקנים הכוללת 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576
אורך חלון ההקשר של הפלט ‫8,192 (ברירת מחדל) ‫8,192 (ברירת מחדל) ‫65,535 (ברירת מחדל) ‫65,535 (ברירת מחדל) ‫65,535 (ברירת מחדל) 65,536 65,536 65,536
עיגון באמצעות חיפוש Google
בקשה להפעלת פונקציה
הרצת קוד
שמירה במטמון של הקשר משתמע
שמירת נתוני הקשר במטמון
חיזויים רבים בבת אחת
Gemini Live API
כוונון עדין
זמן אחזור
ערכת SDK מומלצת Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK
יחידות מידה לתמחור אסימון אסימון אסימון אסימון אסימון אסימון אסימון אסימון
תאריך הוצאה משימוש ‫1 ביוני 2026 ‫1 ביוני 2026 ‫17 ביוני 2026 ‫17 ביוני 2026 ‫22 ביולי 2026 ‫26 במרץ 2026

לפני שמתחילים בהעברה

לפני שמתחילים בתהליך ההעברה, חשוב להביא בחשבון את הנקודות הבאות:

אבטחת מידע, ניהול ואישורים רגולטוריים

חשוב לקבל אישורים מוקדמים מצוותי אבטחת המידע (InfoSec), הסיכונים והתאימות. לכלול את כל הסיכונים הספציפיים ואת כללי התאימות, במיוחד בתעשיות מפוקחות כמו בריאות ופיננסים.

זמינות המיקום

מודלים של Google ושל שותפים ותכונות של AI גנרטיבי ב-Vertex AI זמינים דרך נקודות קצה אזוריות ספציפיות ונקודת קצה גלובלית. נקודות קצה גלובליות מכסות את כל העולם ומציעות זמינות ואמינות משופרות בהשוואה לאזורים בודדים.

הזמינות של נקודות קצה אזוריות משתנה בהתאם לדגם. פרטים על כל מודל זמינים במדריך המיקומים.

הבדלים בתמחור לפי אופן השימוש וטוקניזציה

המחירים משתנים בין המודלים השונים של Gemini. בדף התמחור שלנו מפורטות העלויות של כל המודלים לכל סוגי הקלט (טקסט, קוד, תמונות, דיבור וכו').

רכישה או שינוי של הזמנות של הקצאת משאבים לפי התפוקה שנקבעה

במקרה הצורך, רוכשים עוד הקצאת משאבים לפי התפוקה שנקבעה או משנים הזמנות קיימות של הקצאת משאבים לפי התפוקה שנקבעה.

כוונון מפוקח (SFT)

המודלים העדכניים של Gemini מספקים איכות פלט טובה יותר. יכול להיות שהמשמעות היא שהאפליקציה שלכם כבר לא צריכה מודל שעבר כוונון עדין. אם האפליקציה שלכם משתמשת בכוונון עדין מפוקח עם מודל Gemini ישן יותר, כדאי קודם לבדוק את האפליקציה עם המודל העדכני בלי כוונון עדין, ולהעריך את התוצאות.

אם תבחרו להשתמש בכוונון מפוקח (SFT), לא תוכלו להעביר את המודל הקיים שלכם שעבר כוונון עדין מגרסאות ישנות יותר של Gemini. צריך להריץ משימת התאמה חדשה לגרסה החדשה של Gemini.

כשמבצעים התאמה של מודל Gemini חדש, כדאי להתחיל עם הגדרות ברירת המחדל של ההתאמה. אל תשתמשו מחדש בערכי היפר-פרמטרים מגרסאות קודמות של Gemini, כי שירות ההתאמה האוטומטית מותאם לגרסאות העדכניות. שימוש חוזר בהגדרות ישנות לא יניב תוצאות אופטימליות.

בדיקות רגרסיה

כשמשדרגים לגרסה העדכנית של Gemini, צריך לבצע שלושה סוגים עיקריים של בדיקות רגרסיה:

  1. בדיקות רגרסיה של קוד: בדיקות רגרסיה מנקודת מבט של הנדסת תוכנה ופעולות פיתוח (DevOps). סוג הבדיקה הזה של רגרסיה נדרש תמיד.
  2. בדיקות רגרסיה של ביצועי המודל: בדיקות רגרסיה מנקודת מבט של מדעי הנתונים או למידת מכונה. כלומר, צריך לוודא שהפלט של גרסת המודל החדשה של Gemini לפחות שומר על אותה רמת איכות כמו הגרסה הקודמת.

    בדיקות רגרסיה של ביצועי המודל הן הערכות של המודל שמתבצעות כשמערכת או המודל הבסיסי שלה משתנים. למשל:

    • בדיקות ביצועים אופליין: בדיקות שבודקות את איכות הפלט של המודל בסביבת ניסויים ייעודית, על סמך מדדים שונים של איכות הפלט של המודל.
    • בדיקת ביצועים של מודל אונליין: בדיקות שבודקות את איכות התוצאות של המודל בהטמעה פעילה אונליין, על סמך משוב משתמשים מרומז או מפורש.
  3. בדיקות עומס: הבדיקות האלה בודקות את היכולת של האפליקציה לטפל בהרבה בקשות בו-זמנית. חובה לבצע בדיקות עומס באפליקציות שמשתמשות בהקצאת משאבים לפי התפוקה שנקבעה.

איך עוברים לגרסה העדכנית ביותר

בקטעים הבאים מפורטים השלבים להעברה לגרסה העדכנית של Gemini. כדי לקבל את התוצאות הטובות ביותר, צריך לבצע את השלבים האלה לפי הסדר.

1. הדרישות להערכה ולבדיקה של מודלים של מסמכים

  1. צריך להתכונן לחזור על כל הבדיקות הרלוונטיות שביצעתם כשבניתם את האפליקציה, וגם על כל הבדיקות שביצעתם מאז.
  2. אם ההערכות הנוכחיות לא מכסות או מודדות את כל המשימות שהאפליקציה מבצעת, צריך לתכנן ולהכין עוד הערכות. כדי להתחיל, אפשר להיעזר במדריך ההערכה ובמתכוני ההערכה שלנו.
  3. אם האפליקציה שלכם כוללת RAG, שימוש בכלים, תהליכי עבודה מורכבים של סוכנים או שרשראות של הנחיות, ודאו שנתוני ההערכה הקיימים מאפשרים להעריך כל רכיב בנפרד. אם לא, אוספים דוגמאות של קלט ופלט לכל רכיב.
  4. אם האפליקציה שלכם היא קריטית או שהיא חלק ממערכת גדולה יותר בזמן אמת שפונה למשתמשים, כדאי לכלול בה הערכה אונליין.

2. ביצוע שדרוגים בקוד והרצת בדיקות

כדי לשדרג את הקוד, צריך לבצע שלושה שינויים עיקריים:

בקטעים הבאים נסביר על השינויים האלה בפירוט.

שדרוג ל-Google Gen AI SDK

אם האפליקציה שלכם Gemini 1.x משתמשת ב-Vertex AI SDK, צריך לעבור ל-Gen AI SDK. פרטים נוספים, כולל דוגמאות קוד לביצוע קריאות דומות באמצעות Gen AI SDK, זמינים במדריך שלנו להעברת נתונים מ-Vertex AI SDK. גרסאות של Vertex AI SDK שיושקו אחרי יוני 2026 לא יתמכו ב-Gemini, ותכונות חדשות של Gemini יהיו זמינות רק ב-Gen AI SDK.

אם אתם חדשים ב-Gen AI SDK, כדאי לעיין במחברת Getting started with Google Generative AI using the Gen AI SDK.

איך משנים את השיחות עם Gemini

כדאי לעדכן את קוד החיזוי כדי להשתמש באחד מהמודלים העדכניים של Gemini. לפחות, צריך לשנות את שם נקודת הקצה של המודל.

השינויים המדויקים בקוד משתנים בהתאם לאופן שבו יצרתם את האפליקציה, ובמיוחד בהתאם לשאלה אם השתמשתם ב-Gen AI SDK או ב-Vertex AI SDK.

אחרי שמבצעים שינויים בקוד, מריצים בדיקות רגרסיה של הקוד ובדיקות תוכנה אחרות כדי לוודא שהקוד פועל כמו שצריך. בשלב הזה נבדק אם הקוד פועל, אבל לא נבדקת איכות התשובות של המודל.

תיקון שינויים בקוד שגורמים לבעיות

  • אחזור דינמי: מעבר לשימוש בעיגון בחיפוש Google. התכונה הזו מחייבת את Gen AI SDK ולא נתמכת על ידי Vertex AI SDK.
  • מסנני תוכן: שימו לב להגדרות ברירת המחדל של מסנני התוכן. אם הקוד שלכם מסתמך על ברירת מחדל שהשתנתה, תצטרכו לשנות אותו.
  • פרמטר הדגימה של טוקן Top-K: מודלים אחרי gemini-1.0-pro-vision לא תומכים בשינוי הפרמטר Top-K.
  • מצב Thinking: מודלים מגרסה Gemini 3 Pro ואילך משתמשים בפרמטר thinking_level במקום בפרמטר thinking_budget. מידע נוסף זמין במאמר מודל חשיבה של בקרה.
  • חתימות של מחשבות: במודלים Gemini 3 Pro ואילך, אם צפויה חתימה של מחשבה בתור מסוים אבל היא לא מסופקת, המודל מחזיר שגיאה במקום אזהרה. מידע על חתימות מחשבה
  • רזולוציה של מדיה וחלוקה לאסימונים: מודלים מגרסה Gemini 3 Pro ואילך משתמשים באורך רצף משתנה לחלוקה לאסימונים של מדיה במקום בשיטת Pan and Scan, ויש להם רזולוציות חדשות שמוגדרות כברירת מחדל ועלויות חדשות של אסימונים לתמונות, לקובצי PDF ולסרטונים. מידע נוסף זמין במאמרים בנושא הבנת תמונות והבנת סרטונים.
  • מטא-נתונים של שימוש: במודלים של Gemini 3 Pro ואילך, ספירת הטוקנים של קובצי PDF ב-usage_metadata מדווחת בקטגוריה IMAGE modality (אופן השימוש) במקום בקטגוריה DOCUMENT.
  • חלוקת תמונות למקטעים: מודלים של Gemini 3 Pro ומודלים מתקדמים יותר לא תומכים בחלוקת תמונות למקטעים.
  • תשובות פונקציה מולטימודאליות: במודלים של Gemini 3 Pro ואילך, אפשר לכלול נתונים של תמונות וקובצי PDF בתשובות של פונקציות. תגובות פונקציה מולטימודאליות
  • עיבוד קובצי PDF: במודלים של Gemini 3 Pro ואילך, מערכת ה-OCR לא משמשת כברירת מחדל לעיבוד קובצי PDF סרוקים.

בשלב הזה, מתמקדים רק בשינויים בקוד. יכול להיות שתצטרכו לבצע שינויים נוספים בהמשך, אבל כדאי לחכות עד שתתחילו את תקופת הניסיון. אחרי הבדיקות, כדאי לבצע את ההתאמות הבאות על סמך תוצאות הבדיקה:

  • אם אתם עוברים מאחזור דינמי, יכול להיות שתצטרכו לשנות את ההוראות למערכת כדי לקבוע מתי נעשה שימוש בחיפוש Google (לדוגמה, "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). עם זאת, כדאי להמתין עד שתבצעו הערכה לפני שתשנו את ההנחיות.
  • אם השתמשתם בפרמטר Top-K, כדאי לשנות פרמטרים אחרים של דגימת טוקנים, כמו Top-P, כדי לקבל תוצאות דומות.

3. הרצת הערכות אופליין

חוזרים על הבדיקות שביצעתם כשפיתחתם והשקתם את האפליקציה, על כל הבדיקות שבוצעו אופליין מאז, ועל כל הבדיקות הנוספות שזיהיתם בשלב 1. אם לדעתכם ההערכה עדיין לא מכסה את כל היקף האפליקציה, עליכם לבצע הערכות נוספות.

אם אין לכם דרך אוטומטית להריץ הערכות אופליין, מומלץ להשתמש בשירות ההערכה של AI גנרטיבי.

אם האפליקציה שלכם משתמשת בשיפור דיוק, כדאי לבצע הערכה אופליין לפני שמבצעים שיפור דיוק של המודל באמצעות הגרסה העדכנית של Gemini. המודלים העדכניים ביותר מציעים איכות פלט משופרת, ולכן יכול להיות שהאפליקציה שלכם כבר לא צריכה מודל שעבר כוונון עדין.

4. הערכת תוצאות ההערכה ושינוי ההנחיות וההיפרפרמטרים

אם ההערכה שלכם אופליין מראה שהאפליקציה פועלת בצורה פחות יעילה, כדאי לשפר את האפליקציה עד שהביצועים שלה יהיו זהים לאלה של המודל הישן. כך עושים זאת:

5. הרצת בדיקות עומס

אם האפליקציה שלכם צריכה לעמוד בנפח נתונים מינימלי מסוים, כדאי לבצע בדיקות עומס כדי לוודא שהגרסה האחרונה של האפליקציה עומדת בדרישות נפח הנתונים.

בדיקות עומס חייבות להתבצע לפני הערכה אונליין, כי הערכה אונליין כוללת חשיפה של המודל לתנועה בזמן אמת. בשלב הזה, אפשר להשתמש בכלים ובמכשור הקיימים לבדיקת עומסים.

אם האפליקציה שלכם כבר עומדת בדרישות של תפוקה, כדאי להשתמש בהקצאת משאבים לפי התפוקה שנקבעה. תצטרכו הקצאת משאבים לפי התפוקה שנקבעה לטווח קצר נוספת לכיסוי בדיקות העומס, בזמן שהזמנת הקצאת משאבים לפי התפוקה שנקבעה הנוכחית מטפלת בתנועה בסביבת הייצור.

6. (אופציונלי) הרצת הערכות אונליין

כדאי לעבור להערכה אונליין רק אם ההערכה אופליין מראה איכות גבוהה של תוצאות Gemini וגם אם האפליקציה שלכם דורשת הערכה אונליין.

הערכה אונליין היא סוג ספציפי של בדיקה אונליין. נסו להשתמש בכלים ובשיטות הקיימים בארגון שלכם להערכה אונליין. לדוגמה:

  • אם הארגון שלכם מבצע באופן קבוע בדיקות A/B, כדאי לבצע בדיקה כזו כדי להשוות בין הגרסה הנוכחית של האפליקציה לבין הגרסה האחרונה של Gemini.
  • אם הארגון שלכם משתמש באופן קבוע בפריסות קנרית, כדאי להשתמש בהן עם המודלים העדכניים ולמדוד את השינויים בהתנהגות המשתמשים.

אפשר גם להוסיף לאפליקציה תכונות חדשות של משוב ומדידה כדי לבצע הערכה באינטרנט. אפליקציות שונות צריכות שיטות שונות למשוב. לדוגמה:

  • הוספת לחצני לייק ודיסלייק לצד הפלטים של המודל והשוואה בין שיעורי הלייקים והדיסלייקים של מודל ישן יותר לבין מודלים עדכניים של Gemini.
  • הצגת פלט למשתמשים גם מהמודל הישן וגם מהמודלים החדשים זה לצד זה, ובקשה מהם לבחור את הפלט המועדף עליהם.
  • מעקב אחרי התדירות שבה המשתמשים מבטלים או משנים באופן ידני את התוצאות של המודל הישן לעומת המודלים העדכניים.

כדי להשתמש בשיטות האלה למשוב, צריך להפעיל את הגרסה העדכנית של Gemini לצד הגרסה הקיימת. הפריסה המקבילה הזו נקראת לפעמים "מצב צל" או "פריסה כחולה-ירוקה".

אם יש הבדלים גדולים בין תוצאות ההערכה אונליין לבין תוצאות ההערכה אופליין, ההערכה אופליין לא משקפת היבטים חשובים של הסביבה הפעילה או של חוויית המשתמש. מיישמים את הממצאים של ההערכה אונליין כדי ליצור הערכה חדשה אופליין שמכסה את הפער, ואז חוזרים לשלב 3.

אם אתם משתמשים בהקצאת משאבים לפי התפוקה שנקבעה, יכול להיות שתצטרכו לרכוש הקצאת משאבים נוספת לפי התפוקה שנקבעה לטווח קצר כדי להמשיך לעמוד בדרישות התפוקה למשתמשים בהערכה אונליין.

7. פריסה בסביבת הייצור

אחרי שתהליך ההערכה יראה שהביצועים של מודל Gemini העדכני טובים כמו הביצועים של מודל ישן יותר, או טובים מהם, תוכלו להחליף את גרסת האפליקציה הקיימת בגרסה החדשה. פועלים לפי ההליכים הסטנדרטיים של הארגון להשקת מוצרים.

אם אתם משתמשים בהקצאת משאבים לפי התפוקה שנקבעה, אתם צריכים לשנות את ההזמנה של הקצאת המשאבים לפי התפוקה שנקבעה למודל Gemini שבחרתם. אם אתם משיקים את האפליקציה שלכם בהדרגה, השתמשו ב-הקצאת משאבים לפי התפוקה שנקבעה לטווח קצר כדי לעמוד בדרישות התפוקה של שני מודלים שונים של Gemini.

שיפור הביצועים של המודל

במהלך המעבר, כדאי ליישם את הטיפים האלה כדי להשיג ביצועים אופטימליים מהמודל של Gemini שבחרתם:

  • במודלים Gemini 3 Pro ואילך, Google ממליצה מאוד להשאיר את הפרמטר temperature בערך ברירת המחדל שלו, 1.0. במודלים קודמים, כדאי היה לשנות את הגדרת רמת האקראיות כדי לשלוט באיזון בין יצירתיות לבין דטרמיניזם. לעומת זאת, יכולות החשיבה הרציונלית של Gemini 3 Pro ומודלים מתקדמים יותר מותאמות להגדרת ברירת המחדל. שינוי רמת האקראיות (הגדרה של ערך נמוך מ-1.0) עלול להוביל להתנהגות לא צפויה, כמו חזרה על פעולות או ירידה בביצועים, במיוחד במשימות מורכבות שקשורות למתמטיקה או לחשיבה רציונלית.
  • בודקים את ההוראות למערכת, את ההנחיות ואת הדוגמאות ללמידה עם הקשר מוגבל כדי לוודא שאין בהן חוסר עקביות, סתירות או הוראות ודוגמאות לא רלוונטיות.
  • לנסות מודל מתקדם יותר. לדוגמה, אם בדקתם את Gemini 2.0 Flash-Lite, כדאי לנסות את Gemini 2.0 Flash.
  • בודקים את תוצאות ההערכה האוטומטית כדי לוודא שהן תואמות לשיפוט אנושי, במיוחד תוצאות שמתקבלות באמצעות מודל שופט. חשוב לוודא שההוראות למודל השופט ברורות, עקביות וחד-משמעיות.
  • כדי לשפר את ההוראות למודל השופט, כדאי לבדוק את ההוראות עם כמה בני אדם שעובדים בנפרד. אם בני אדם מפרשים את ההוראות בצורה שונה ומספקים שיפוטים שונים, סימן שההוראות של מודל השופט לא ברורות.
  • כוונון עדין של המודל.
  • בודקים את התוצאות של ההערכה כדי לזהות דפוסים שמצביעים על סוגים ספציפיים של כשלים. קיבוץ של כשלים לפי מודל, סוג או קטגוריה מספק נתוני הערכה ממוקדים יותר, וכך קל יותר לשנות את ההנחיות כדי לתקן את השגיאות האלה.
  • חשוב להקפיד להעריך כל רכיב של AI גנרטיבי בנפרד.
  • אפשר להתנסות בשינוי פרמטרים של דגימת טוקנים.

קבלת עזרה

אם אתם זקוקים לעזרה, ב- Google Cloud יש חבילות תמיכה שמתאימות לצרכים שלכם, למשל תמיכה מסביב לשעון, תמיכה טלפונית וגישה למנהל תמיכה טכנית. מידע נוסף זמין במאמר בנושא Google Cloud תמיכה.

המאמרים הבאים

מדריך

במאמר הזה נסביר איך משתמשים ב-Google Gen AI SDK כדי לשלוח שאילתות למודלים של Gemini באמצעות Vertex AI.

סקירה כללית

רשימת המודלים של Google שזמינים ב-Vertex AI, כמו Gemini,‏ Gemma,‏ Veo ו-Imagen.

סקירה כללית

רשימה של מודלים שפותחו על ידי שותפים של Google וזמינים ב-Vertex AI, כמו Claude ו-Mistral.

סקירה כללית

סקירה כללית של אופן השימוש במודלים פתוחים כמו Gemma,‏ Llama,‏ DeepSeek ועוד ב-Vertex AI.

Resource

שאלות נפוצות על שימוש ב-Gemini עם Vertex AI.