סקירה כללית על שמירת נתונים במטמון בהתאם להקשר

שמירת הקשר במטמון עוזרת להקטין את העלות ואת זמן האחזור של בקשות ל-Gemini שמכילות תוכן שחוזר על עצמו. ‫Gemini Enterprise Agent Platform מציעה שני סוגים של שמירת נתונים במטמון:

  • שמירה במטמון באופן מרומז: שמירה אוטומטית במטמון שמופעלת כברירת מחדל ומאפשרת לחסוך בעלויות כשמתבצעת גישה לנתונים במטמון.
  • שמירת נתונים במטמון באופן מפורש: שמירת נתונים במטמון באופן ידני באמצעות Gemini Enterprise API, שבו אתם מציינים במפורש את התוכן שאתם רוצים לשמור במטמון ואם ההנחיות שלכם צריכות להתייחס לתוכן שנשמר במטמון.

גם במקרים של שמירה במטמון באופן מרומז וגם במקרים של שמירה במטמון באופן מפורש, השדה cachedContentTokenCount במטא-נתונים של התגובה מציין את מספר הטוקנים בחלק של הקלט שנשמר במטמון.

עלויות של אחסון במטמון

גם במקרים של שמירה במטמון באופן מרומז וגם במקרים של שמירה במטמון באופן מפורש, אתם מחויבים על טוקני הקלט ששימשו ליצירת המטמון במחיר הרגיל של טוקני קלט. במקרה של שמירת מטמון מפורשת, יש גם עלויות אחסון שמבוססות על משך הזמן שבו המטמון נשמר. אין עלויות אחסון עבור שמירה במטמון באופן מרומז. מידע נוסף על התמחור של Agent Platform

שמירה מרומזת במטמון

בכל Google Cloud הפרויקטים מופעלת כברירת מחדל שמירת נתונים במטמון באופן מרומז. שמירת נתונים במטמון באופן מרומז מספקת הנחה של 90% על טוקנים שנשמרו במטמון בהשוואה לטוקנים של קלט רגיל.

כשמפעילים את האפשרות הזו, החיסכון בעלויות של פגיעה במטמון (cache hit) מועבר אליכם באופן אוטומטי. כדי להגדיל את הסיכויים לפגיעה במטמון באופן מרומז:

  • כדאי להציב תוכן גדול ונפוץ בתחילת ההנחיה.
  • שליחת בקשות עם קידומת דומה בפרק זמן קצר.

מודלים נתמכים

אפשר להשתמש במודלים הבאים כדי להפעיל שמירה במטמון באופן מרומז:

אפשר ללחוץ כדי להרחיב את רשימת המודלים הנתמכים

שמירה במטמון באופן מרומז תומכת גם בכינויים העדכניים ביותר, כולל:

  • gemini-flash-latest
  • gemini-flash-lite-latest

שמירה במטמון באופן מרומז תומכת גם במודלים פתוחים. מידע נוסף זמין במאמר בנושא מודלים פתוחים של Agent Platform ל-MaaS.

שמירה מפורשת במטמון

שמירה במטמון באופן מפורש מאפשרת יותר שליטה ומבטיחה הנחה על טוקנים של קלט שמפנים למטמון הקשר קיים. במודלים של Gemini 2.5 ואילך, ההנחה היא 90%. במודלים של Gemini 2.0, ההנחה היא 75%.

באמצעות Gemini Enterprise API, אתם יכולים:

אפשר גם להשתמש ב-Gemini Enterprise API כדי לאחזר מידע על מטמון הקשר.

מטמונים מפורשים פועלים באינטראקציה עם מטמונים מרומזים, ולכן יכול להיות שכשיוצרים מטמון, המטמון יכלול תוכן נוסף מעבר לתוכן שצוין. כדי למנוע שימור של נתונים במטמון, משביתים את המטמון המרומז ונמנעים מיצירת מטמונים מפורשים. מידע נוסף מופיע במאמר הפעלה והשבתה של שמירה במטמון.

מודלים נתמכים

אפשר להשתמש במודלים הבאים כדי להגדיר שמירה במטמון באופן מפורש:

אפשר ללחוץ כדי להרחיב את רשימת המודלים הנתמכים

שמירת מטמון מפורשת תומכת גם בכינויים העדכניים ביותר, כולל:

  • gemini-flash-latest
  • gemini-flash-lite-latest

מתי כדאי להשתמש בשמירת מטמון של הקשר

שמירת ההקשר במטמון מתאימה במיוחד לתרחישים שבהם בקשות עוקבות מפנות שוב ושוב להקשר ראשוני משמעותי.

אפשר להשתמש בפריטי הקשר ששמורים במטמון, כמו כמות גדולה של טקסט, קובץ אודיו או קובץ וידאו, בבקשות להנחיות ל-Gemini API כדי ליצור פלט. בקשות שמשתמשות באותו מטמון בהנחיה כוללות גם טקסט ייחודי לכל הנחיה. לדוגמה, כל בקשת הנחיה שמרכיבה שיחה בצ'אט עשויה לכלול את אותו מטמון הקשר שמפנה לסרטון, יחד עם טקסט ייחודי שמרכיב כל תור בשיחה.

כדאי להשתמש במטמון של ההקשר בתרחישים כמו:

  • צ'אט בוטים עם הוראות מערכת נרחבות
  • ניתוח חוזר של קובצי וידאו ארוכים
  • שאילתות חוזרות על קבוצות גדולות של מסמכים
  • ניתוח תכוף של מאגר המקורות של הקוד או תיקון באגים

יש תמיכה בשמירה במטמון באופן מרומז וגלוי עם הקצאת משאבים לפי התפוקה שנקבעה בתצוגה מקדימה. פרטים נוספים זמינים במדריך בנושא תפוקה שהוקצתה. מטמון פועל בכל סוגי התנועה. לדוגמה, מטמון שנוצר בזמן השימוש ב-הקצאת משאבים לפי התפוקה שנקבעה פועל גם עם PayGo.

זמינות

האפשרות לשמירת מטמון של הקשר זמינה באזורים שבהם זמינה בינה מלאכותית גנרטיבית ב-Gemini Enterprise Agent Platform. מידע נוסף זמין במאמר בנושא מיקומים של AI גנרטיבי ב-Gemini Enterprise Agent Platform.

מגבלות

התוכן שאתם שומרים במטמון באופן מפורש חייב לעמוד במגבלות שמוצגות בטבלה הבאה:

מגבלות על שמירת הקשר במטמון

מספר מינימלי של טוקנים במטמון עבור שמירה במטמון באופן מרומז וגלוי

  • מודלים ממשפחת Gemini 3: 4,096 טוקנים
  • מודלים מסדרת Gemini 2: 2,048 טוקנים

הגודל המקסימלי של תוכן שאפשר לשמור במטמון באמצעות blob או טקסט

‫10MB

משך הזמן המינימלי לפני שפג תוקף של מטמון אחרי שהוא נוצר

דקה אחת

הזמן המקסימלי לפני שפג התוקף של מטמון אחרי שהוא נוצר

אין משך מטמון מקסימלי

תמיכה ב-VPC Service Controls

מטמון ההקשר תומך ב-VPC Service Controls, כלומר אי אפשר להעביר את המטמון שלכם אל מחוץ לגבולות גזרה לשירות. אם אתם משתמשים ב-Cloud Storage כדי ליצור את המטמון, כדאי לכלול את הקטגוריה שלכם גם בגבולות גזרה לשירות כדי להגן על תוכן המטמון.

מידע נוסף זמין במאמר VPC Service Controls עם פלטפורמת הסוכנים של Gemini Enterprise במסמכי התיעוד של פלטפורמת הסוכנים של Gemini Enterprise.

המאמרים הבאים