סקירה כללית על שמירת נתונים במטמון בהתאם להקשר

שמירת הקשר במטמון עוזרת להקטין את העלות ואת זמן האחזור של בקשות ל-Gemini שמכילות תוכן חוזר. ב-Vertex AI יש שני סוגים של שמירת נתונים במטמון:

  • שמירה במטמון באופן מרומז: שמירה אוטומטית במטמון שמופעלת כברירת מחדל ומאפשרת לחסוך בעלויות כשמתרחשת פגיעה במטמון.
  • שמירה במטמון באופן מפורש: שמירה במטמון באופן ידני באמצעות Vertex AI API, שבה אתם מציינים במפורש את התוכן שאתם רוצים לשמור במטמון ואם ההנחיות שלכם צריכות להתייחס לתוכן שנשמר במטמון.

גם במקרים של שמירה במטמון באופן מרומז וגם במקרים של שמירה במטמון באופן מפורש, השדה cachedContentTokenCount במטא-נתונים של התגובה מציין את מספר הטוקנים בחלק של הקלט שנשמר במטמון.

עלויות של אחסון במטמון

גם במקרים של שמירת נתונים במטמון באופן מרומז וגם במקרים של שמירת נתונים במטמון באופן מפורש, אתם מחויבים על טוקני הקלט ששימשו ליצירת המטמון במחיר הרגיל של טוקני קלט. במקרה של שמירה מפורשת במטמון, יש גם עלויות אחסון שמבוססות על משך הזמן שבו המטמון נשמר. אין עלויות אחסון עבור שמירה במטמון באופן מרומז. מידע נוסף זמין במאמר בנושא תמחור ב-Vertex AI.

שמירה מרומזת במטמון

בכל Google Cloud הפרויקטים מופעלת כברירת מחדל שמירת נתונים במטמון באופן מרומז. שמירת מידע במטמון באופן מרומז מספקת הנחה של 90% על טוקנים שנשמרו במטמון בהשוואה לטוקנים של קלט רגיל.

כשהאפשרות הזו מופעלת, החיסכון בעלויות שנובע ממציאה במטמון (cache hit) מועבר אליכם באופן אוטומטי. כדי להגדיל את הסיכויים לפגיעה במטמון משתמע:

  • כדאי להציב תוכן גדול ונפוץ בתחילת ההנחיה.
  • שליחת בקשות עם קידומת דומה בפרק זמן קצר.

מודלים נתמכים

אפשר להשתמש במטמון מרומז כשמשתמשים במודלים הבאים:

שמירה במטמון באופן מרומז תומכת גם בכינויים העדכניים ביותר, כולל:

  • gemini-flash-latest
  • gemini-flash-lite-latest

שמירה במטמון באופן מרומז תומכת גם במודלים פתוחים. מידע נוסף זמין במאמר בנושא מודלים פתוחים של Vertex AI ל-MaaS.

שמירה מפורשת במטמון

שמירת נתונים במטמון באופן מפורש מאפשרת לכם לשלוט יותר בנתונים ומבטיחה הנחה כשמפנים למטמון מפורש. כלומר, הנחה על טוקנים של קלט שמפנים למטמון קיים של הקשר. במודלים של Gemini 2.5 ואילך ההנחה היא 90%, ובמודלים של Gemini 2.0 ההנחה היא 75%.

באמצעות Vertex AI API, אתם יכולים:

אפשר גם להשתמש ב-Vertex AI API כדי לאחזר מידע על מטמון הקשר.

מטמונים מפורשים פועלים באינטראקציה עם מטמונים מרומזים, ועלולים להוביל ליצירת מטמון נוסף מעבר לתוכן שצוין. כדי למנוע שימור של נתונים במטמון, משביתים את השמירה במטמון באופן מרומז ונמנעים מיצירת מטמון באופן מפורש. מידע נוסף מופיע במאמר הפעלה והשבתה של שמירה במטמון.

מודלים נתמכים

אפשר להשתמש במודלים הבאים כדי להגדיר שמירה במטמון באופן מפורש:

שמירת מטמון מפורשת תומכת גם בכינויים העדכניים ביותר, כולל:

  • gemini-flash-latest
  • gemini-flash-lite-latest

מתי כדאי להשתמש בשמירת מטמון של הקשר

שמירת ההקשר במטמון מתאימה במיוחד לתרחישים שבהם בקשות עוקבות מפנות שוב ושוב להקשר ראשוני משמעותי.

אפשר להשתמש בפריטי הקשר ששמורים במטמון, כמו כמות גדולה של טקסט, קובץ אודיו או קובץ וידאו, בבקשות להנחיות ל-Gemini API כדי ליצור פלט. בקשות שמשתמשות באותו מטמון בהנחיה כוללות גם טקסט ייחודי לכל הנחיה. לדוגמה, כל בקשת הנחיה שמרכיבה שיחה בצ'אט עשויה לכלול את אותו מטמון הקשר שמפנה לסרטון, יחד עם טקסט ייחודי שמרכיב כל תור בשיחה.

כדאי להשתמש במטמון הקשר בתרחישי שימוש כמו:

  • צ'אט בוטים עם הוראות מערכת מקיפות
  • ניתוח חוזר של קובצי וידאו ארוכים
  • שאילתות חוזרות על קבוצות גדולות של מסמכים
  • ניתוח תכוף של מאגר קוד או תיקון באגים

בתצוגה מקדימה, יש תמיכה בשמירה במטמון באופן מרומז וגלוי עם הקצאת משאבים לפי התפוקה שנקבעה. פרטים נוספים זמינים במדריך בנושא הקצאת משאבים לפי התפוקה שנקבעה. מטמון פועל בכל סוגי התנועה. לדוגמה, מטמון שנוצר בזמן השימוש ב-Provisioned Throughput פועל גם עם PayGo.

זמינות

האפשרות לשמירת מטמון של הקשר זמינה באזורים שבהם זמין AI גנרטיבי ב-Vertex AI. מידע נוסף זמין במאמר בנושא מיקומי AI גנרטיבי ב-Vertex AI.

מגבלות

התוכן שאתם שומרים במטמון באופן מפורש צריך לעמוד במגבלות שמוצגות בטבלה הבאה:

מגבלות על שמירת הקשר במטמון

מספר מינימלי של טוקנים במטמון עבור שמירה במטמון באופן מרומז וגלוי

  • מודלים של Gemini 3 ו-Gemini 3.1: 4,096 טוקנים
  • מודלים של Gemini 2.0 ו-2.5: 2,048 טוקנים

הגודל המקסימלי של תוכן שאפשר לשמור במטמון באמצעות blob או טקסט

‫10MB

משך הזמן המינימלי לפני שפג התוקף של מטמון אחרי שהוא נוצר

דקה אחת

הזמן המקסימלי לפני שפג התוקף של מטמון אחרי שהוא נוצר

אין משך מטמון מקסימלי

תמיכה ב-VPC Service Controls

התכונה 'שמירת נתונים במטמון לפי הקשר' תומכת ב-VPC Service Controls, כלומר אי אפשר להעביר את הנתונים במטמון אל מחוץ לגבולות גזרה לשירות. אם אתם משתמשים ב-Cloud Storage כדי ליצור את המטמון, כדאי לכלול את הקטגוריה שלכם גם בגבולות גזרה לשירות כדי להגן על תוכן המטמון.

מידע נוסף זמין במאמר VPC Service Controls עם Vertex AI במסמכי התיעוד של Vertex AI.

המאמרים הבאים