במדריך הזה מוסבר איך לעדכן את האפליקציה לגרסה העדכנית של Gemini. במדריך הזה אנחנו מניחים שהאפליקציה שלכם כבר משתמשת בגרסה ישנה יותר של Gemini. כדי ללמוד איך להתחיל להשתמש ב-Gemini ב-Gemini Enterprise Agent Platform, אפשר לעיין במדריך לתחילת העבודה עם Gemini API.
במדריך הזה לא מוסבר איך להעביר את האפליקציה מ-Agent Platform SDK ל-Google Gen AI SDK הנוכחי. מידע נוסף זמין במדריך להעברת נתונים של Agent Platform SDK.
אילו שינויים צפויים?
כדי לעדכן את רוב האפליקציות של AI גנרטיבי לגרסה העדכנית של Gemini, צריך לבצע שינויים קלים בקוד או בהנחיות. עם זאת, יכול להיות שיהיה צורך לבצע התאמות בהנחיות באפליקציות מסוימות. קשה לחזות את השינויים האלה בלי לבדוק קודם את ההנחיות שלכם בגרסה החדשה. מומלץ לבצע בדיקות יסודיות לפני מעבר מלא. לקבלת טיפים ליצירת הנחיות יעילות, אפשר לעיין בהנחיות שלנו בנושא אסטרטגיית הנחיות. כדי למצוא ולפתור בעיות בהנחיות, אפשר להשתמש ברשימת הבדיקה שלנו לבדיקת תקינות ההנחיות.
עדכון בדיווח על מספר הטוקנים
יכול להיות שתבחינו בעלייה צפויה במספר האסימונים המדווחים, כי התשתית המשודרגת שלנו מתעדת עכשיו בצורה מדויקת את כל רכיבי הבקשה – כולל מטא-נתונים מורכבים כמו סכימות של תגובות וקריאות לפונקציות – שבעבר נספרו בחסר על ידי המערכת הקודמת.
צריך לבצע שינויים משמעותיים בקוד רק במקרים של שינויים שעלולים לשבור את הקוד או כדי להשתמש ביכולות חדשות של Gemini.
לאיזה מודל Gemini כדאי לעבור?
מודל Gemini שבו אתם משתמשים תלוי בצרכים של האפליקציה שלכם:
| תכונה | 2.5 Pro | 2.5 Flash | 2.5 Flash-Lite | 3 Flash | 3.1 Pro | 3.1 Flash-Lite | 3.5 Flash |
|---|---|---|---|---|---|---|---|
| שלב ההשקה | GA | GA | GA | תצוגה מקדימה | תצוגה מקדימה | GA | GA |
| אופני קלט |
|
|
|
|
|
|
|
| אופנויות פלט |
|
|
|
|
|
|
|
| חלון הקשר, מגבלת הטוקנים הכוללת | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 | 1,048,576 |
| אורך חלון ההקשר של הפלט | 65,535 (ברירת מחדל) | 65,535 (ברירת מחדל) | 65,535 (ברירת מחדל) | 65,536 | 65,536 | 65,535 (ברירת מחדל) | 65,535 (ברירת מחדל) |
| עיגון באמצעות חיפוש Google | |||||||
| בקשה להפעלת פונקציה | |||||||
| הרצת קוד | |||||||
| שמירת נתונים במטמון של הקשר משתמע | |||||||
| שמירת נתוני הקשר במטמון | |||||||
| חיזויים רבים בבת אחת | |||||||
| Gemini Live API | |||||||
| כוונון עדין | |||||||
| זמן אחזור | |||||||
| תאריך הוצאה משימוש | לא לפני 16 באוקטובר 2026 | לא לפני 16 באוקטובר 2026 | לא לפני 16 באוקטובר 2026 | לא לפני 7 במאי 2027 | לא לפני 19 במאי 2027 |
לפני שמתחילים בהעברה
לפני שמתחילים בתהליך ההעברה, חשוב להביא בחשבון את הנקודות הבאות:
- אבטחת מידע (InfoSec), משילות ואישורים רגולטוריים
- זמינות המיקום
- הבדלים במחירים לפי אופן השימוש וטוקניזציה
- רכישה או שינוי של הזמנות של הקצאת משאבים לפי התפוקה שנקבעה
- כוונון מפוקח (SFT)
- בדיקות רגרסיה
אבטחת מידע, ניהול ואישורים רגולטוריים
חשוב לקבל אישורים מוקדמים מצוותי אבטחת המידע (InfoSec), הסיכונים והתאימות. לכסות כל סיכון ספציפי וכללי תאימות, במיוחד בתעשיות מפוקחות כמו בריאות ופיננסים.
זמינות המיקום
מודלים ותכונות של AI גנרטיבי מבית Google ושל שותפים ב-Gemini Enterprise Agent Platform זמינים דרך נקודות קצה אזוריות ספציפיות ונקודת קצה גלובלית. נקודות קצה גלובליות מכסות את כל העולם ומציעות זמינות ואמינות משופרות בהשוואה לאזורים בודדים.
הזמינות של נקודות קצה אזוריות משתנה בהתאם לדגם. פרטים על כל מודל זמינים במדריך המיקומים.
הבדלים בתמחור לפי אופן השימוש וטוקניזציה
המחירים משתנים בין מודלי Gemini השונים. בדף התמחור שלנו מפורטות העלויות של כל המודלים לכל סוגי הקלט (טקסט, קוד, תמונות, דיבור וכו').
רכישה או שינוי של הזמנות של הקצאת משאבים לפי התפוקה שנקבעה
במקרה הצורך, רוכשים עוד הקצאת משאבים לפי התפוקה שנקבעה או משנים הזמנות קיימות של הקצאת משאבים לפי התפוקה שנקבעה.
כוונון מפוקח (SFT)
המודלים העדכניים של Gemini מספקים איכות פלט טובה יותר. יכול להיות שהמשמעות היא שהאפליקציה כבר לא צריכה מודל שעבר התאמה עדינה. אם האפליקציה שלכם משתמשת בכוונון עדין מפוקח עם מודל Gemini ישן יותר, כדאי קודם לבדוק את האפליקציה עם המודל העדכני ביותר ללא כוונון עדין ולהעריך את התוצאות.
אם תבחרו להשתמש בכוונון עדין בפיקוח, לא תוכלו להעביר את המודל הקיים שלכם שעבר כוונון מגרסאות ישנות יותר של Gemini. צריך להריץ משימת התאמה חדשה לגרסה החדשה של Gemini.
כשמבצעים התאמה של מודל Gemini חדש, מתחילים עם הגדרות ברירת המחדל של ההתאמה. אל תשתמשו מחדש בערכי היפר-פרמטרים מגרסאות קודמות של Gemini, כי שירות הכוונון מותאם לגרסאות העדכניות. שימוש חוזר בהגדרות ישנות לא יניב תוצאות אופטימליות.
בדיקות רגרסיה
כשמשדרגים לגרסה העדכנית של Gemini, צריך לבצע שלושה סוגים עיקריים של בדיקות רגרסיה:
- בדיקות רגרסיה של קוד: בדיקות רגרסיה מנקודת מבט של הנדסת תוכנה ופעולות פיתוח (DevOps). סוג הבדיקה הזה של רגרסיה נדרש תמיד.
-
בדיקות רגרסיה של ביצועי המודל: בדיקות רגרסיה מנקודת מבט של מדעי הנתונים או למידת מכונה. כלומר, צריך לוודא שהפלט של גרסת מודל Gemini החדשה לפחות ישמור על אותה רמת איכות כמו הגרסה הקודמת.
בדיקות רגרסיה של ביצועי המודל הן הערכות של המודל שמתבצעות כשמערכת או המודל הבסיסי שלה משתנים. הם כוללים:
- בדיקות ביצועים אופליין: בדיקות שבודקות את האיכות של פלט המודל בסביבת ניסויים ייעודית על סמך מדדים שונים של איכות פלט המודל.
- בדיקת ביצועי המודל אונליין: בדיקות שבודקות את איכות התוצאות של המודל בהטמעה פעילה אונליין, על סמך משוב משתמשים מרומז או מפורש.
- בדיקות עומס: הבדיקות האלה בודקות את היכולת של האפליקציה לטפל בהרבה בקשות בו-זמנית. חובה לבצע בדיקות עומס באפליקציות שמשתמשות בהקצאת משאבים לפי התפוקה שנקבעה.
איך עוברים לגרסה העדכנית ביותר
בקטעים הבאים מפורטים השלבים להעברה לגרסה העדכנית של Gemini. כדי לקבל את התוצאות הטובות ביותר, צריך לבצע את השלבים האלה לפי הסדר.
1. הדרישות להערכה ולבדיקה של מודל מסמכים
- צריך להתכונן לחזור על כל הבדיקות הרלוונטיות שביצעתם כשבניתם את האפליקציה, וגם על כל הבדיקות שביצעתם מאז.
- אם ההערכות הנוכחיות לא מכסות או מודדות את כל המשימות שהאפליקציה מבצעת, צריך לתכנן ולהכין עוד הערכות. כדי להתחיל, אפשר להיעזר במדריך ההערכה ובמתכוני ההערכה שלנו.
- אם האפליקציה שלכם כוללת RAG, שימוש בכלים, תהליכי עבודה מורכבים של סוכנים או שרשראות הנחיות, ודאו שנתוני ההערכה הקיימים מאפשרים להעריך כל רכיב בנפרד. אם לא, אוספים דוגמאות של קלט ופלט לכל רכיב.
- אם האפליקציה שלכם היא קריטית או שהיא חלק ממערכת גדולה יותר שפונה למשתמשים בזמן אמת, כדאי לכלול בה הערכה אונליין.
2. ביצוע שדרוגים בקוד והרצת בדיקות
שדרוג הקוד כולל שלושה שינויים עיקריים:
בקטעים הבאים מפורטים השינויים האלה.
שדרוג ל-Google Gen AI SDK
אם האפליקציה שלכם ב-Gemini 1.x משתמשת ב-Vertex AI SDK, צריך לעבור ל-Gen AI SDK. מידע נוסף, כולל דוגמאות קוד לביצוע קריאות דומות באמצעות Gen AI SDK, זמין במדריך שלנו להעברה אל Vertex AI SDK. גרסאות של Vertex AI SDK שיושקו אחרי יוני 2026 לא יתמכו ב-Gemini, ותכונות חדשות של Gemini יהיו זמינות רק ב-Gen AI SDK.
מומלץ מאוד לעדכן לגרסה google-genai של SDK 2.0.0 או לגרסה מתקדמת יותר כדי ליהנות מכל התכונות החדשות ב-Gemini 3.5 Flash ובמודלים מתקדמים יותר.
אם אתם חדשים ב-Gen AI SDK, כדאי לעיין במחברת Getting started with Google Generative AI using the Gen AI SDK.
איך משנים את ההגדרות של שיחות עם Gemini
מעדכנים את קוד החיזוי כדי להשתמש באחד מהמודלים העדכניים של Gemini. לפחות, צריך לשנות את שם נקודת הקצה של המודל.
השינויים המדויקים בקוד משתנים בהתאם לאופן שבו יצרתם את האפליקציה, ובמיוחד אם השתמשתם ב-Gen AI SDK או ב-Vertex AI SDK.
אחרי שמבצעים שינויים בקוד, מריצים בדיקות רגרסיה של הקוד ובדיקות תוכנה אחרות כדי לוודא שהקוד פועל כמו שצריך. בשלב הזה נבדק אם הקוד פועל, אבל לא נבדקת האיכות של התשובות של המודל.
תיקון שינויים בקוד שגורמים לשגיאות
- אחזור דינמי: מעבר לשימוש בעיגון באמצעות חיפוש Google. התכונה הזו דורשת את Gen AI SDK ולא נתמכת על ידי Vertex AI SDK.
- מסנני תוכן: שימו לב להגדרות ברירת המחדל של מסנני התוכן. אם הקוד שלכם מסתמך על ברירת מחדל שהשתנתה, תצטרכו לשנות אותו.
- פרמטר הדגימה של טוקן
Top-K: במודלים אחריgemini-1.0-pro-visionאין תמיכה בשינוי הפרמטרTop-K. - מצב Thinking: מודלים של Gemini 3 Pro ומודלים מתקדמים יותר משתמשים בפרמטר
thinking_levelבמקום בפרמטרthinking_budget. מידע נוסף זמין במאמר מודל חשיבה של בקרה. - חתימות מחשבה: במודלים של Gemini 3 Pro ואילך, אם מצפים לחתימת מחשבה בתור מסוים אבל היא לא מסופקת, המודל מחזיר שגיאה במקום אזהרה. חתימות מחשבה
- רזולוציה של מדיה וטוקניזציה: מודלים מגרסה Gemini 3 Pro ואילך משתמשים באורך רצף משתנה לטוקניזציה של מדיה במקום בשיטת Pan and Scan, ויש להם רזולוציות חדשות שמוגדרות כברירת מחדל ועלויות טוקניזציה חדשות לתמונות, לקובצי PDF ולסרטונים. מידע נוסף זמין במאמרים בנושא הבנת תמונות והבנת סרטונים.
- מטא-נתונים של השימוש: במודלים של Gemini 3 Pro ואילך, ספירת הטוקנים של קובצי PDF ב-
usage_metadataמדווחת בקטגוריהIMAGEולא בקטגוריהDOCUMENT. - חלוקת תמונות למקטעים: מודלים של Gemini 3 Pro ומודלים מתקדמים יותר לא תומכים בחלוקת תמונות למקטעים.
- תשובות פונקציה מולטימודאליות: במודלים של Gemini 3 Pro ואילך, אפשר לכלול נתונים של תמונות וקובצי PDF בתשובות של פונקציות. תגובות פונקציה מרובות-אופנים
- עיבוד קובצי PDF: במודלים של Gemini 3 Pro ואילך, מערכת ה-OCR לא משמשת כברירת מחדל לעיבוד קובצי PDF סרוקים.
בשלב הזה, מתמקדים רק בשינויים בקוד. יכול להיות שתצטרכו לבצע שינויים נוספים בהמשך, אבל כדאי לחכות עד שתתחילו את תקופת הניסיון. אחרי ההערכות, כדאי לבצע את ההתאמות הבאות על סמך תוצאות ההערכה:
- אם אתם עוברים מאחזור דינמי, יכול להיות שתצטרכו לשנות את ההוראות למערכת כדי לקבוע מתי נעשה שימוש בחיפוש Google (לדוגמה,
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). עם זאת, כדאי לחכות עד שתבצעו הערכה לפני שתשנו את ההנחיות. - אם השתמשתם בפרמטר
Top-K, כדאי לשנות פרמטרים אחרים של דגימת טוקנים, כמוTop-P, כדי לקבל תוצאות דומות.
3. הרצת הערכות אופליין
חוזרים על הבדיקות שביצעתם כשפיתחתם והשקתם את האפליקציה, על כל הבדיקות שבוצעו אופליין מאז, ועל כל הבדיקות הנוספות שזיהיתם בשלב 1. אם לדעתכם ההערכה לא מכסה את כל היקף האפליקציה, עליכם לבצע הערכות נוספות.
אם אין לכם דרך אוטומטית להריץ הערכות אופליין, מומלץ להשתמש בשירות ההערכה של AI גנרטיבי.
אם האפליקציה שלכם משתמשת בשיפור דיוק, כדאי לבצע הערכה אופליין לפני שמבצעים שיפור דיוק של המודל עם הגרסה העדכנית של Gemini. המודלים העדכניים ביותר מציעים איכות פלט משופרת, ולכן יכול להיות שהאפליקציה שלכם כבר לא צריכה מודל שעבר כוונון עדין.
4. הערכת תוצאות ההערכה ושינוי ההנחיות וההיפרפרמטרים
אם ההערכה שלכם במצב אופליין מראה שהאפליקציה פועלת בצורה פחות יעילה, עליכם לשפר את האפליקציה עד שהביצועים שלה יהיו זהים לאלה של המודל הישן. כך עושים זאת:
- שיפור ההנחיות באופן איטרטיבי כדי לשפר את הביצועים ('טיפוס על גבעה'). אם אתם חדשים בשיטת חיפוש מקסימום מקומי, כדאי לעיין בהדרכה אונליין בנושא חיפוש מקסימום מקומי ב-Vertex Gemini. אפשר להיעזר גם בכלי לאופטימיזציה של הנחיות ב-Gemini Enterprise Agent Platform (מחברת לדוגמה).
- אם האפליקציה שלכם מושפעת משינויים משמעותיים ב-Dynamic Retrieval וב-Top-K , כדאי לנסות לשנות את ההנחיה ואת הפרמטרים של דגימת הטוקנים.
5. הרצת בדיקות עומס
אם האפליקציה שלכם צריכה לעמוד בדרישות מסוימות של קצב העברת נתונים מינימלי, כדאי לבצע בדיקות עומס כדי לוודא שהגרסה האחרונה של האפליקציה עומדת בדרישות האלה.
בדיקות עומס חייבות להתבצע לפני הערכה אונליין, כי הערכה אונליין כוללת חשיפה של המודל לתנועה בזמן אמת. בשלב הזה, אפשר להשתמש בכלים ובמכשור הקיימים לבדיקת עומסים.
אם האפליקציה שלכם כבר עומדת בדרישות של קצב העברת הנתונים, כדאי להשתמש ב-Provisioned Throughput. תצטרכו נפח תפוקה זמני נוסף לטווח קצר כדי לבצע בדיקות עומס, בזמן שההזמנה הנוכחית של נפח התפוקה המוקצה מטפלת בתנועה בסביבת הייצור.
6. (אופציונלי) הרצת הערכות אונליין
כדאי לעבור להערכה אונליין רק אם ההערכה אופליין מראה איכות גבוהה של תוצאות Gemini וגם אם האפליקציה שלכם דורשת הערכה אונליין.
הערכה אונליין היא סוג ספציפי של בדיקה אונליין. נסו להשתמש בכלים ובשיטות הקיימים בארגון להערכה אונליין. לדוגמה:
- אם הארגון שלכם מבצע באופן קבוע בדיקות A/B, כדאי לבצע בדיקה כזו כדי להשוות בין הגרסה הנוכחית של האפליקציה לבין הגרסה העדכנית של Gemini.
- אם הארגון שלכם משתמש באופן קבוע בפריסות קנרית, כדאי להשתמש בהן עם המודלים העדכניים ולמדוד את השינויים בהתנהגות המשתמשים.
אפשר גם להוסיף לאפליקציה תכונות חדשות של משוב ומדידה כדי לבצע הערכה באינטרנט. אפליקציות שונות צריכות שיטות שונות למשוב. לדוגמה:
- הוספת לחצני לייק ואנלייק לצד הפלטים של המודל והשוואה בין השיעורים של מודל ישן יותר לבין המודלים העדכניים של Gemini.
- הצגת תוצאות למשתמשים גם מהמודל הישן וגם מהמודלים החדשים זה לצד זה, ובקשה מהם לבחור את התוצאה המועדפת.
- מעקב אחרי התדירות שבה המשתמשים מבטלים את הפלט או משנים אותו באופן ידני מהמודל הישן יותר לעומת המודלים העדכניים ביותר.
כדי להשתמש בשיטות האלה למשוב, צריך להפעיל את הגרסה העדכנית של Gemini לצד הגרסה הקיימת. הפריסה המקבילה הזו נקראת לפעמים "מצב צל" או "פריסה כחולה-ירוקה".
אם יש הבדלים גדולים בין תוצאות ההערכה אונליין לבין תוצאות ההערכה אופליין, ההערכה אופליין לא משקפת היבטים מרכזיים של הסביבה הפעילה או של חוויית המשתמש. מיישמים את הממצאים של ההערכה אונליין כדי ליצור הערכה חדשה אופליין שמכסה את הפער, ואז חוזרים לשלב 3.
אם אתם משתמשים ב-הקצאת משאבים לפי התפוקה שנקבעה, יכול להיות שתצטרכו לרכוש עוד הקצאת משאבים לפי התפוקה שנקבעה לטווח קצר כדי להמשיך לעמוד בדרישות התפוקה של המשתמשים בהערכה אונליין.
7. פריסה בסביבת הייצור
אחרי שתראו מההערכה שהמודל העדכני של Gemini פועל טוב כמו מודל ישן יותר או טוב יותר, תוכלו להחליף את גרסת האפליקציה הקיימת בגרסה החדשה. פועלים לפי ההליכים הסטנדרטיים של הארגון להשקת מוצר.
אם אתם משתמשים בהקצאת משאבים לפי התפוקה שנקבעה, אתם צריכים לשנות את ההזמנה של הקצאת המשאבים לפי התפוקה שנקבעה למודל Gemini שבחרתם. אם אתם משיקים את האפליקציה שלכם בהדרגה, השתמשו ב-הקצאת משאבים לפי התפוקה שנקבעה לטווח קצר כדי לעמוד בדרישות התפוקה של שני מודלים שונים של Gemini.
עדכוני פרמטרים ושיטות מומלצות ב-Gemini 3.x
ההנחיות הבאות חלות על כל המודלים של Gemini 3.x, כולל Gemini 3.5 Flash. הם הוצגו עם Gemini 3, והם מופיעים כאן כתזכורת.
פרמטרים של דגימה (הוצאו משימוש)
אנחנו כבר לא ממליצים על temperature, top_p ו-top_k לכל מודלי Gemini 3.x. המודל מנהל את הדגימה בעצמו כדי להשיג תוצאות אופטימליות. להסיר את הפרמטרים האלה מכל הבקשות.
כדי למקסם את הדטרמיניזם, מומלץ להגדיר הוראה למערכת עם כללים מפורשים לתרחיש השימוש הספציפי שלכם.
thinking_budget (הוצאה משימוש)
לא מומלץ יותר להשתמש בפרמטר thinking_budget של מספר גולמי בכל המודלים של Gemini 3.x. במקום זאת, צריך להשתמש ב-enum של מחרוזת thinking_level.
בקשה להפעלת פונקציה: התאמה מדויקת של תשובות
ה-API עדיין לא מחזיר שגיאה, אבל תשובות לא תואמות גורמות למודל להחזיר תשובות ריקות עם finish_reason: STOP ברוב המקרים. חשוב להקפיד על המוסכמות הבאות:
- הכללת
id: כלFunctionResponseחייב לכלול אתidמה-FunctionCallהמתאים. - התאמה של
name: הערך שלnameבתגובה חייב להיות זהה לערך שלnameבשיחה. - מספר ההתאמות: מחזירה בדיוק
FunctionResponseאחד לכלFunctionCallשהתקבל.
תשובות של פונקציות מרובות מצבים
כשמספקים תוכן מולטי-מודאלי (כמו תמונות) בתגובה לקריאה לפונקציה, צריך לכלול את התוכן בתוך חלקי התגובה של הפונקציה, ולא מחוץ להם. כך נמנעת התנהגות לא צפויה של המודל, כמו דליפת מחשבות.
הוראות מוטמעות בתגובה של הפונקציה
אם אתם צריכים לספק הוראות לפלטפורמה יחד עם התשובות של הפונקציה, עליכם להוסיף אותן בסוף הטקסט של התשובה של הפונקציה, ולהפריד ביניהן באמצעות שתי שורות חדשות, ולא כחלקים נפרדים.
הפחתת קריאות מיותרות לכלים
אם אתם נתקלים בשימוש מוגזם בקריאות לכלים:
1. מפחיתים את רמת ההעמקה (medium, low או minimal).
2. הוספת הוראה למערכת כדי להגביל את השימוש בכלי (למשל, "You have a
limited action budget of <n> tool calls. Use them efficiently.").
רשימת משימות למיגרציה
מגרסת טרום-ההשקה של Gemini 3 Flash
- עדכון שם הדגם:
gemini-3-flash-preview←gemini-3.5-flash. - בדיקת התמחור. Gemini 3.5 Flash יקר יותר מ-Gemini 3 Flash Preview.
- מסירים את
temperature,top_pו-top_kמההגדרה. - מחליפים את
thinking_budgetב-thinking_level. - בודקים את ההנחיות. המאמץ שמוגדר כברירת מחדל השתנה מ-
highל-medium. - התכונה 'שמירת מחשבות' מופעלת עכשיו כברירת מחדל. ההקשר של הנימוקים נשמר לאורך כל התורות.
- כדי לצמצם את מספר הקריאות המיותרות לכלים, אפשר לשנות את רמת החשיבה או להוסיף הוראות למערכת.
- בשלב הזה, Gemini 3.5 Flash לא תומך בשימוש במחשב.
- צמצום התנהגות חנפנית: אם
gemini-3.5-flashמתחיל להציג סימנים של התנהגות חנפנית, אפשר לנסות לצמצם את ההתנהגות הזו באמצעות הוראות המערכת שלו. לשם כך, מוסיפים את ההוראות הבאות:- Keep your responses concise. - Provide a summary of your work when you end your turn. Ground your response in the work you did. Keep your tone professional and avoid overconfident language, bragging, or overclaiming success. - AVOID using superlatives such as "perfectly", "flawlessly", "100% correct", "Summary of Accomplishments" etc. to summarize your work for the user. Be humble. - AVOID over-the-top politeness or complimenting the user excessively. - Format your responses in github-style markdown.
מ-Gemini 2.5
- בדיקת עומסי עבודה של קובצי PDF ומסמכים. יכול להיות שתהיה עלייה בצריכת הטוקנים בקובצי PDF.
- מפשטים את ההנחיות. אפשר לנסות להשתמש ב-
thinking_level: "medium"או ב-"high"עם הנחיות פשוטות יותר במקום הנחיות מורכבות של שרשרת מחשבות. - שימוש משולב בכלים (חיפוש, הקשר של כתובת URL, הפעלת קוד, פונקציות).
- העברת תוכן מולטימודאלי בתוך חלקים של תשובות לפונקציות.
- צירוף הוראות מוטמעות לטקסט התשובה של הפונקציה.
שיפור הביצועים של המודל
במהלך המעבר, כדאי ליישם את הטיפים הבאים כדי להשיג ביצועים אופטימליים מהמודל של Gemini שבחרתם:
- הוצאנו משימוש את פרמטרי הדגימה (
temperature,top_pו-top_k) בכל המודלים שלGemini 3. המודל מנהל את הדגימה שלו כדי להשיג תוצאות אופטימליות. Google ממליצה להסיר את הפרמטרים האלה מכל הבקשות. - בודקים את ההוראות למערכת, את ההנחיות ואת הדוגמאות ללמידה עם הקשר מועט כדי לוודא שאין בהן חוסר עקביות, סתירות או הוראות ודוגמאות לא רלוונטיות.
- לנסות מודל מתקדם יותר. לדוגמה, אם הערכתם מודל Flash-Lite, נסו במקום זאת מודל Flash או Pro.
- בודקים את תוצאות ההערכה האוטומטית כדי לוודא שהן תואמות לשיפוט אנושי, במיוחד תוצאות שמתקבלות באמצעות מודל שופט. חשוב לוודא שההוראות למודל השופט ברורות, עקביות וחד-משמעיות.
- כדי לשפר את ההוראות למודל השופט, כדאי לבדוק את ההוראות עם כמה בני אדם שעובדים בנפרד. אם בני אדם מפרשים את ההוראות בצורה שונה ומספקים שיפוטים שונים, ההוראות של מודל השופט לא ברורות.
- כוונון עדין של המודל.
- בודקים את התוצאות של ההערכה כדי לזהות דפוסים שמצביעים על סוגים ספציפיים של כשלים. קיבוץ של כשלים לפי מודל, סוג או קטגוריה מספק נתוני הערכה ממוקדים יותר, וכך קל יותר לשנות את ההנחיות כדי לתקן את השגיאות האלה.
- חשוב להקפיד להעריך רכיבים שונים של AI גנרטיבי באופן עצמאי.
- כדאי להתנסות בשינוי פרמטרים של דגימת טוקנים.
קבלת עזרה
אם אתם זקוקים לעזרה, ב- Google Cloud יש חבילות תמיכה שמתאימות לצרכים שלכם, למשל תמיכה מסביב לשעון, תמיכה טלפונית וגישה למנהל תמיכה טכנית. מידע נוסף זמין במאמר בנושא Google Cloud תמיכה.
המאמרים הבאים
איך מתחילים לעבוד עם Agent Platform
במאמר הזה נסביר איך משתמשים ב-Google Gen AI SDK כדי לשלוח שאילתות למודלים של Gemini באמצעות Agent Platform.
מודלים של Google
רשימה של מודלים של Google שזמינים ב-Agent Platform, כמו Gemini, Gemma ו-Veo.
מודלים של שותפים
רשימה של מודלים שפותחו על ידי שותפים של Google וזמינים ב-Agent Platform, כמו Claude ו-Mistral.
פתיחת מודלים
סקירה כללית על השימוש במודלים פתוחים כמו Gemma, Llama, DeepSeek ועוד ב-Agent Platform.