שמירת הקשר במטמון עוזרת להקטין את העלות ואת זמן האחזור של בקשות ל-Gemini שמכילות תוכן חוזר. ב-Vertex AI יש שני סוגים של שמירת נתונים במטמון:
- שמירה במטמון באופן מרומז: שמירה אוטומטית במטמון שמופעלת כברירת מחדל ומאפשרת לחסוך בעלויות כשמתרחשת פגיעה במטמון.
- שמירה במטמון באופן מפורש: שמירה במטמון באופן ידני באמצעות Vertex AI API, שבה אתם מציינים במפורש את התוכן שאתם רוצים לשמור במטמון ואם ההנחיות שלכם צריכות להתייחס לתוכן שנשמר במטמון.
גם במקרים של שמירה במטמון באופן מרומז וגם במקרים של שמירה במטמון באופן מפורש, השדה cachedContentTokenCount במטא-נתונים של התגובה מציין את מספר הטוקנים בחלק של הקלט שנשמר במטמון.
עלויות של אחסון במטמון
גם במקרים של שמירת נתונים במטמון באופן מרומז וגם במקרים של שמירת נתונים במטמון באופן מפורש, אתם מחויבים על טוקני הקלט ששימשו ליצירת המטמון במחיר הרגיל של טוקני קלט. במקרה של שמירה מפורשת במטמון, יש גם עלויות אחסון שמבוססות על משך הזמן שבו המטמון נשמר. אין עלויות אחסון עבור שמירה במטמון באופן מרומז. מידע נוסף זמין במאמר בנושא תמחור ב-Vertex AI.
שמירה מרומזת במטמון
בכל Google Cloud הפרויקטים מופעלת כברירת מחדל שמירת נתונים במטמון באופן מרומז. שמירת מידע במטמון באופן מרומז מספקת הנחה של 90% על טוקנים שנשמרו במטמון בהשוואה לטוקנים של קלט רגיל.
כשהאפשרות הזו מופעלת, החיסכון בעלויות שנובע ממציאה במטמון (cache hit) מועבר אליכם באופן אוטומטי. כדי להגדיל את הסיכויים לפגיעה במטמון משתמע:
- כדאי להציב תוכן גדול ונפוץ בתחילת ההנחיה.
- שליחת בקשות עם קידומת דומה בפרק זמן קצר.
מודלים נתמכים
אפשר להשתמש במטמון מרומז כשמשתמשים במודלים הבאים:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
שמירה במטמון באופן מרומז תומכת גם בכינויים העדכניים ביותר, כולל:
gemini-flash-latestgemini-flash-lite-latest
שמירה במטמון באופן מרומז תומכת גם במודלים פתוחים. מידע נוסף זמין במאמר בנושא מודלים פתוחים של Vertex AI ל-MaaS.
שמירה מפורשת במטמון
שמירת נתונים במטמון באופן מפורש מאפשרת לכם לשלוט יותר בנתונים ומבטיחה הנחה כשמפנים למטמון מפורש. כלומר, הנחה על טוקנים של קלט שמפנים למטמון קיים של הקשר. במודלים של Gemini 2.5 ואילך ההנחה היא 90%, ובמודלים של Gemini 2.0 ההנחה היא 75%.
באמצעות Vertex AI API, אתם יכולים:
- יצירת מטמוני הקשר ושליטה בהם בצורה יעילה יותר.
- משתמשים במטמון הקונטקסט על ידי ציון התוכן שלו בבקשת הנחיה עם שם המשאב שלו.
- מעדכנים את זמן התפוגה של מטמון ההקשר (אורך חיים, או TTL) מעבר ל-60 דקות, שהוא ערך ברירת המחדל.
- למחוק מטמון של הקשר כשכבר לא צריך אותו.
אפשר גם להשתמש ב-Vertex AI API כדי לאחזר מידע על מטמון הקשר.
מטמונים מפורשים פועלים באינטראקציה עם מטמונים מרומזים, ועלולים להוביל ליצירת מטמון נוסף מעבר לתוכן שצוין. כדי למנוע שימור של נתונים במטמון, משביתים את השמירה במטמון באופן מרומז ונמנעים מיצירת מטמון באופן מפורש. מידע נוסף מופיע במאמר הפעלה והשבתה של שמירה במטמון.
מודלים נתמכים
אפשר להשתמש במודלים הבאים כדי להגדיר שמירה במטמון באופן מפורש:
- Gemini 3.1 Flash-Lite
- Gemini 3.1 Pro
- Gemini 3 Flash
- Gemini 3 Pro
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
שמירת מטמון מפורשת תומכת גם בכינויים העדכניים ביותר, כולל:
gemini-flash-latestgemini-flash-lite-latest
מתי כדאי להשתמש בשמירת מטמון של הקשר
שמירת ההקשר במטמון מתאימה במיוחד לתרחישים שבהם בקשות עוקבות מפנות שוב ושוב להקשר ראשוני משמעותי.
אפשר להשתמש בפריטי הקשר ששמורים במטמון, כמו כמות גדולה של טקסט, קובץ אודיו או קובץ וידאו, בבקשות להנחיות ל-Gemini API כדי ליצור פלט. בקשות שמשתמשות באותו מטמון בהנחיה כוללות גם טקסט ייחודי לכל הנחיה. לדוגמה, כל בקשת הנחיה שמרכיבה שיחה בצ'אט עשויה לכלול את אותו מטמון הקשר שמפנה לסרטון, יחד עם טקסט ייחודי שמרכיב כל תור בשיחה.
כדאי להשתמש במטמון הקשר בתרחישי שימוש כמו:
- צ'אט בוטים עם הוראות מערכת מקיפות
- ניתוח חוזר של קובצי וידאו ארוכים
- שאילתות חוזרות על קבוצות גדולות של מסמכים
- ניתוח תכוף של מאגר קוד או תיקון באגים
בתצוגה מקדימה, יש תמיכה בשמירה במטמון באופן מרומז וגלוי עם הקצאת משאבים לפי התפוקה שנקבעה. פרטים נוספים זמינים במדריך בנושא הקצאת משאבים לפי התפוקה שנקבעה. מטמון פועל בכל סוגי התנועה. לדוגמה, מטמון שנוצר בזמן השימוש ב-Provisioned Throughput פועל גם עם PayGo.
זמינות
האפשרות לשמירת מטמון של הקשר זמינה באזורים שבהם זמין AI גנרטיבי ב-Vertex AI. מידע נוסף זמין במאמר בנושא מיקומי AI גנרטיבי ב-Vertex AI.
מגבלות
התוכן שאתם שומרים במטמון באופן מפורש צריך לעמוד במגבלות שמוצגות בטבלה הבאה:
| מגבלות על שמירת הקשר במטמון | |
|---|---|
מספר מינימלי של טוקנים במטמון עבור שמירה במטמון באופן מרומז וגלוי |
|
הגודל המקסימלי של תוכן שאפשר לשמור במטמון באמצעות blob או טקסט |
10MB |
משך הזמן המינימלי לפני שפג התוקף של מטמון אחרי שהוא נוצר |
דקה אחת |
הזמן המקסימלי לפני שפג התוקף של מטמון אחרי שהוא נוצר |
אין משך מטמון מקסימלי |
תמיכה ב-VPC Service Controls
התכונה 'שמירת נתונים במטמון לפי הקשר' תומכת ב-VPC Service Controls, כלומר אי אפשר להעביר את הנתונים במטמון אל מחוץ לגבולות גזרה לשירות. אם אתם משתמשים ב-Cloud Storage כדי ליצור את המטמון, כדאי לכלול את הקטגוריה שלכם גם בגבולות גזרה לשירות כדי להגן על תוכן המטמון.
מידע נוסף זמין במאמר VPC Service Controls עם Vertex AI במסמכי התיעוד של Vertex AI.