תחילת העבודה עם מדיניות שמירת נתונים במטמון סמנטי

הדף הזה רלוונטי ל-Apigee ול-Apigee Hybrid.

לעיון במסמכי התיעוד של Apigee Edge

בדף הזה מוסבר איך להגדיר ולהשתמש במדיניות של Apigee בנושא שמירת נתונים במטמון סמנטי, כדי לאפשר שימוש חוזר חכם בתשובות על סמך דמיון סמנטי. שימוש במדיניות הזו ב-proxy ל-API של Apigee מצמצם את מספר הקריאות המיותרות ל-API של הבק-אנד, מקצר את זמן האחזור ומפחית את העלויות התפעוליות.

לפני שמתחילים

לפני שמתחילים, צריך לבצע את המשימות הבאות:

  1. נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Compute Engine, AI Platform, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Compute Engine, AI Platform, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. מגדירים ומבצעים קביעת תצורה של Vertex AI Text embeddings API ושל Vector Search בפרויקט Google Cloud .
  9. מוודאים שיש לכם סביבת Comprehensive שזמינה במופע Apigee. אפשר לפרוס כללי מדיניות של שמירת נתונים במטמון סמנטי רק בסביבות Comprehensive.

התפקידים הנדרשים

כדי לקבל את ההרשאות שנדרשות ליצירה ולשימוש במדיניות של שמירת נתונים במטמון סמנטי, צריך לבקש מהאדמין להקצות לכם ב-IAM את התפקיד משתמש ב-AI Platform (roles/aiplatform.user) בחשבון השירות שבו אתם משתמשים כדי לפרוס פרוקסי של Apigee. כדי לקרוא הסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

הגדרה של משתני סביבה

בפרויקט Google Cloud שמכיל את מופע Apigee, משתמשים בפקודה הבאה כדי להגדיר משתני סביבה:

export PROJECT_ID=PROJECT_ID
export REGION=REGION
export RUNTIME_HOSTNAME=RUNTIME_HOSTNAME

כאשר:

  • PROJECT_ID הוא מזהה הפרויקט עם מופע Apigee.
  • REGION הוא האזור של מופע Apigee. Google Cloud
  • RUNTIME_HOSTNAME הוא שם המארח של זמן הריצה של Apigee.

כדי לוודא שמשתני הסביבה מוגדרים בצורה נכונה, מריצים את הפקודה הבאה ובודקים את הפלט:

echo $PROJECT_ID $REGION $RUNTIME_HOSTNAME

הגדרת הפרויקט

מגדירים את Google Cloud הפרויקט בסביבת הפיתוח:

    gcloud auth login
    gcloud config set project $PROJECT_ID

סקירה כללית

כללי המדיניות של שמירת נתונים במטמון סמנטי עוזרים למשתמשי Apigee במודלים של LLM להציג באופן חכם הנחיות זהות או דומות מבחינה סמנטית בצורה יעילה, תוך צמצום הקריאות ל-API של ה-Backend והפחתת צריכת המשאבים.

מדיניות SemanticCacheLookup ו-SemanticCachePopulate מצורפת לזרימות של בקשות ותגובות, בהתאמה, של proxy ל-API של Apigee. כשהפרוקסי מקבל בקשה, מדיניות SemanticCacheLookup מחלצת את הנחיית המשתמש מהבקשה וממירה את ההנחיה לייצוג מספרי באמצעות Text embeddings API. חיפוש דמיון סמנטי מתבצע באמצעות חיפוש וקטורי כדי למצוא הנחיות דומות. אם נמצא נתון דומה של הנחיה, מתבצעת בדיקה במטמון. אם נמצאו נתונים במטמון, התגובה שנשמרה במטמון מוחזרת ללקוח.

אם חיפוש הדמיון לא מחזיר הנחיה קודמת דומה, מודל ה-LLM יוצר תוכן בתגובה להנחיית המשתמש ומאכלס את המטמון של Apigee בתשובה. נוצרת לולאת משוב כדי לעדכן את הרשומות באינדקס החיפוש של חיפוש הווקטורים, כהכנה לבקשות עתידיות.

בקטעים הבאים מתוארים השלבים ליצירה ולהגדרה של מדיניות שמירת נתונים במטמון סמנטי:

  1. מגדירים חשבון שירות לאינדקס החיפוש הווקטורי.
  2. יוצרים ומפעילים אינדקס חיפוש וקטורי.
  3. יוצרים proxy ל-API כדי להפעיל שמירה במטמון סמנטי.
  4. מגדירים את כללי המדיניות של שמירת נתונים במטמון סמנטי.
  5. בודקים את מדיניות השמירה במטמון הסמנטי.

הגדרת חשבון שירות לאינדקס החיפוש של Vector Search

כדי להגדיר חשבון שירות לאינדקס החיפוש הווקטורי, מבצעים את השלבים הבאים:

  1. יוצרים חשבון שירות באמצעות הפקודה הבאה:
    gcloud iam service-accounts create SERVICE_ACCOUNT_NAME \
      --description="DESCRIPTION" \
      --display-name="SERVICE_ACCOUNT_DISPLAY_NAME"

    כאשר:

    • SERVICE_ACCOUNT_NAME הוא השם של חשבון השירות.
    • DESCRIPTION הוא תיאור של חשבון השירות.
    • SERVICE_ACCOUNT_DISPLAY_NAME הוא השם המוצג של חשבון השירות.

    לדוגמה:

    gcloud iam service-accounts create ai-client \
      --description="semantic cache client" \
      --display-name="ai-client"
  2. מקצים לחשבון השירות את התפקיד AI Platform User באמצעות הפקודה הבאה:
    gcloud projects add-iam-policy-binding $PROJECT_ID \
      --member="serviceAccount:SERVICE_ACCOUNT_NAME@$PROJECT_ID.iam.gserviceaccount.com" \
      --role="roles/aiplatform.user"

    מחליפים את SERVICE_ACCOUNT_NAME בשם של חשבון השירות שנוצר בשלב הקודם.

  3. מקצים לחשבון השירות את התפקיד Service Account User ב-IAM באמצעות הפקודה הבאה:
    gcloud projects add-iam-policy-binding $PROJECT_ID \
      --member="serviceAccount:SERVICE_ACCOUNT_NAME@$PROJECT_ID.iam.gserviceaccount.com" \
      --role="roles/iam.serviceAccountUser"

    מחליפים את SERVICE_ACCOUNT_NAME בשם של חשבון השירות שנוצר בשלב הקודם.

יצירה ופריסה של אינדקס Vector Search

כדי ליצור ולפרוס אינדקס של Vector Search:

  1. יצירת אינדקס חיפוש ב-Vector Search שמאפשר עדכונים בהזרמה:
    ACCESS_TOKEN=$(gcloud auth print-access-token) && curl --location --request POST \
      "https://$REGION-aiplatform.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/indexes" \
        --header "Authorization: Bearer $ACCESS_TOKEN" \
        --header 'Content-Type: application/json' \
        --data-raw \
        '{
          "displayName": "semantic-cache-index",
          "description": "semantic-cache-index",
          "metadata": {
            "config": {
              "dimensions": "768",
              "approximateNeighborsCount": 150,
              "distanceMeasureType": "DOT_PRODUCT_DISTANCE",
              "featureNormType": "NONE",
              "algorithmConfig": {
                "treeAhConfig": {
                  "leafNodeEmbeddingCount": "10000",
                  "fractionLeafNodesToSearch": 0.05
                  }
                },
              "shardSize": "SHARD_SIZE_MEDIUM"
              },
            },
          "indexUpdateMethod": "STREAM_UPDATE"
        }'

    המשתנה ‎ $REGION מגדיר את האזור שבו מתבצעת הפריסה של אינדקס Vector Search. מומלץ להשתמש באותו אזור כמו במופע Apigee. משתנה הסביבה הזה הוגדר בשלב הקודם.

    בסיום הפעולה, אמורה להתקבל תגובה שדומה לזו:

    {
      "name": "projects/976063410430/locations/us-west1/indexes/5695338290484346880/operations/9084564741162008576",
      "metadata": {
        "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateIndexOperationMetadata",
        "genericMetadata": {
          "createTime": "2025-04-25T18:45:27.996136Z",
          "updateTime": "2025-04-25T18:45:27.996136Z"
        }
      }
    }

    מידע נוסף על יצירת אינדקסים של חיפוש וקטורי

  2. יוצרים IndexEndpoint באמצעות הפקודה הבאה:
    gcloud ai index-endpoints create \
      --display-name=semantic-cache-index-endpoint \
      --public-endpoint-enabled \
      --region=$REGION \
      --project=$PROJECT_ID

    השלמת השלב הזה עשויה להימשך כמה דקות. בסיום הפעולה, אמורה להתקבל תגובה שדומה לזו:

    Waiting for operation [8278420407862689792]...done.
      Created Vertex AI index endpoint: projects/976063410430/locations/us-west1/indexEndpoints/7953875911424606208.

    מידע נוסף על יצירת IndexEndpoint זמין במאמר יצירת IndexEndpoint.

  3. מפעילים את הפקודה הבאה כדי לפרוס את האינדקס לנקודת הקצה:
    INDEX_ENDPOINT_ID=$(gcloud ai index-endpoints list \
      --project=$PROJECT_ID \
      --region=$REGION \
      --format="json" | jq -c -r \
      '.[] | select(.displayName=="semantic-cache-index-endpoint") | .name | split("/") | .[5]' \
      ) && INDEX_ID=$(gcloud ai indexes list \
      --project=$PROJECT_ID \
      --region=$REGION \
      --format="json" | jq -c -r \
      '.[] | select(.displayName=="semantic-cache-index") | .name | split("/") | .[5]' \
      ) && gcloud ai index-endpoints deploy-index \
      $INDEX_ENDPOINT_ID \
      --deployed-index-id=semantic_cache \
      --display-name=semantic-cache \
      --index=$INDEX_ID \
      --region=$REGION \
      --project=$PROJECT_ID

הפריסה הראשונית של אינדקס לנקודת קצה יכולה להימשך בין 20 ל-30 דקות. כדי לבדוק את סטטוס הפעולה, משתמשים בפקודה הבאה:

gcloud ai operations describe OPERATION_ID \
  --project=$PROJECT_ID \
  --region=$REGION

מוודאים שהאינדקס נפרס:

gcloud ai operations describe OPERATION_ID \
  --index-endpoint=$INDEX_ENDPOINT_ID --region=$REGION --project=$PROJECT_ID

הפקודה אמורה להחזיר את הערך $ done: true.

יצירת proxy ל-API כדי להפעיל שמירה במטמון סמנטי

בשלב הזה, יוצרים פרוקסי חדש של API באמצעות התבנית Proxy with Semantic Cache (פרוקסי עם מטמון סמנטי), אם עדיין לא עשיתם זאת.

לפני שיוצרים את proxy ל-API, צריך להגדיר את משתנה הסביבה הבא:

export PUBLIC_DOMAIN_NAME=$(gcloud ai index-endpoints describe $INDEX_ENDPOINT_ID --region=$REGION --project=$PROJECT_ID | grep "publicEndpointDomainName" | awk '{print $2}')

כדי ליצור שרת proxy לשימוש עם שמירה במטמון סמנטי:

  1. נכנסים לדף API proxies במסוף Google Cloud .

    מעבר לשרתי proxy ל-API

  2. לוחצים על + Create כדי לפתוח את החלונית Create proxy ל-API.
  3. בתיבה תבנית Proxy, בוחרים באפשרות Proxy with Semantic Cache (שרת Proxy עם מטמון סמנטי).
  4. ממלאים את הפרטים הבאים:
    • שם ה-proxy: מזינים את שם ה-proxy.
    • תיאור: (אופציונלי) מזינים תיאור של השרת הפרוקסי.
    • יעד (API קיים): מזינים את כתובת ה-URL של שירות לקצה העורפי שה-Proxy קורא לו. זו נקודת הקצה של מודל ה-LLM שיוצר את התוכן.

      במדריך הזה, מגדירים את היעד (API קיים) לערך הבא:

      REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/gemini-2.0-flash-001:generateContent
  5. מזינים את כתובות ה-URL של המטמון הסמנטי הבאות:
    • Generate Embeddings URL: שירות Vertex AI הזה ממיר קלט טקסט לפורמט מספרי לצורך ניתוח סמנטי.

      במדריך הזה, מגדירים את כתובת ה-URL הזו לערך הבא:

      REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/text-embedding-004:predict
    • Query Nearest Neighbor URL: שירות Vertex AI הזה מחפש קלט טקסט דומה מבקשות קודמות באינדקס החיפוש הווקטורי כדי להימנע מעיבוד מחדש.

      במדריך הזה, מגדירים את כתובת ה-URL הזו לערך הבא:

      PUBLIC_DOMAIN_NAME/v1/projects/PROJECT_ID/locations/REGION/indexEndpoints/INDEX_ENDPOINT_ID:findNeighbors

      הערכים PUBLIC_DOMAIN_NAME ו-INDEX_ENDPOINT_ID הוגדרו בשלב קודם. כדי לקבל את הערכים האלה, משתמשים בפקודות הבאות:

        echo $PUBLIC_DOMAIN_NAME
        echo $INDEX_ENDPOINT_ID

    • כתובת ה-URL של אינדקס ה-Upsert: שירות Vertex AI הזה מעדכן את האינדקס ברשומות חדשות או ברשומות שעברו שינוי.

      במדריך הזה, מגדירים את כתובת ה-URL הזו לערך הבא:

      REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/indexes/INDEX_ID:upsertDatapoints
  6. לוחצים על הבא.
  7. לוחצים על יצירה.

הגדרת ה-XML של ה-API proxy מופיעה בכרטיסייה Develop. מדיניות SemanticCacheLookup ו-SemanticCachePopulate שמכילה ערכי ברירת מחדל כבר מצורפת לזרימות הבקשות והתגובות של ה-proxy.

הגדרת כללי המדיניות של שמירת נתונים במטמון סמנטי

כדי לראות את הגדרות ה-XML של כל מדיניות, לוחצים על שם המדיניות בתצוגת פרטים בכרטיסייה פיתוח של שרת ה-API הפרוקסי. עורכים את ה-XML של המדיניות ישירות בתצוגת הקוד בכרטיסייה פיתוח.

עורכים את כללי המדיניות:

  • מדיניות SemanticCacheLookup:
    • כדי להשתמש בערך ברירת המחדל, מסירים את הרכיב <UserPromptSource>.
    • מעדכנים את הרכיב <DeployedIndexId> לערך semantic_cache.
    • מגדירים את ערך הדמיון הסמנטי <Threshold> כדי לקבוע מתי שתי הנחיות נחשבות להתאמה. ערך ברירת המחדל הוא 0.9, אבל אפשר לשנות אותו בהתאם לרמת הרגישות של האפליקציה. ככל שהמספר גדול יותר, כך ההנחיות צריכות להיות קשורות יותר כדי להיחשב כהתאמה במטמון. במדריך הזה, מומלץ להגדיר את הערך הזה ל-0.95.
    • לוחצים על Save.
  • המדיניות SemanticCachePopulate:
    • מגדירים את הרכיב <TTLInSeconds> כדי לציין את מספר השניות עד שתוקף המטמון יפוג. ערך ברירת המחדל הוא 60s. חשוב לדעת שמערכת Apigee מתעלמת מכל כותרות בקרת המטמון שהיא מקבלת ממודל ה-LLM.
    • לוחצים על Save.

הוספת אימות Google ל-proxy ל-API

כדי לאפשר קריאות proxy ליעד, צריך גם להוסיף אימות של Google לנקודת הקצה של היעד של שרת ה-proxy של ה-API.

כדי להוסיף את טוקן הגישה של Google:

  1. בכרטיסייה Develop, לוחצים על default בתיקייה Target endpoints. בתצוגת הקוד מוצגת הגדרת ה-XML של האלמנט <TargetEndpoint>.
  2. עורכים את ה-XML כדי להוסיף את ההגדרה הבאה בקטע <HTTPTargetConnection>:
    <Authentication>
      <GoogleAccessToken>
        <Scopes>
          <Scope>https://www.googleapis.com/auth/cloud-platform</Scope>
        </Scopes>
      </GoogleAccessToken>
    </Authentication>
  3. לוחצים על Save.

פריסת ה-proxy ל-API

כדי לפרוס את proxy ל-API:

  1. לוחצים על Deploy (פריסה) כדי לפתוח את החלונית Deploy API proxy (פריסת proxy ל-API).
  2. השדה Revision צריך להיות מוגדר לערך 1. אם לא, לוחצים על 1 כדי לבחור אותה.
  3. ברשימה סביבה, בוחרים את הסביבה שבה רוצים לפרוס את ה-proxy. הסביבה חייבת להיות סביבה מקיפה.
  4. מזינים את חשבון השירות שיצרתם בשלב קודם.
  5. לוחצים על פריסה.

בדיקת מדיניות שמירת נתונים במטמון סמנטי

כדי לבדוק את מדיניות השמירה במטמון הסמנטי:

  1. שולחים בקשה לשרת ה-proxy באמצעות הפקודה הבאה:
    curl https://$RUNTIME_HOSTNAME/PROXY_NAME -H 'Content-Type: application/json' --data '{
      "contents": [
          {
              "role": "user",
              "parts": [
                  {
                      "text": "Why is the sky blue?"
                  }
              ]
          }
      ]
    }'

    מחליפים את PROXY_NAME בנתיב הבסיס של proxy ל-API שפרסתם בשלב הקודם.

  2. מריצים שוב את קריאה ל-API, ומחליפים את מחרוזת ההנחיה במחרוזות ההנחיה הבאות, שהן דומות מבחינה סמנטית:
    • למה השמיים כחולים?
    • מה גורם לשמיים להיות כחולים?
    • למה השמיים כחולים?
    • תסביר לי למה השמיים כחולים.
    • השמיים כחולים, למה זה קורה?
  3. משווים את זמן התגובה לכל קריאה אחרי שהנחיה דומה נשמרה במטמון.

כדי לוודא שהקריאות מוגשות מהמטמון, בודקים את כותרות התגובה. כותרת Cached-Content: true מצורפת.

שיטות מומלצות

מומלץ לשלב את השיטות המומלצות הבאות בתוכנית לניהול ה-API כשמשתמשים במדיניות של שמירת נתונים במטמון סמנטי:

  • מניעת שמירת מידע רגיש במטמון באמצעות Model Armor.

    כדי למנוע שמירת נתונים רגישים במטמון, מומלץ להשתמש ב-Model Armor לסינון תוכן. הגנה מוגברת על המודל יכולה לסמן תשובות ככאלה שלא ניתן לשמור במטמון אם היא מזהה מידע רגיש. מידע נוסף מופיע במאמר סקירה כללית על הגנה מוגברת על המודל.

  • ניהול עדכניות הנתונים באמצעות פסילת נקודות נתונים וערך Time-to-Live ‏ (TTL) ב-Vertex AI.

    מומלץ להטמיע אסטרטגיות מתאימות לביטול תוקף של נקודות נתונים כדי לוודא שהתגובות שנשמרות במטמון עדכניות ומשקפות את המידע העדכני ביותר ממערכות ה-Backend. למידע נוסף, אפשר לעיין במאמר בנושא עדכון ושיקום של אינדקס פעיל.

    אפשר גם לשנות את ערך ה-TTL של תשובות שנשמרו במטמון בהתאם למידת התנודתיות של הנתונים ולתדירות העדכונים. מידע נוסף על שימוש ב-TTL במדיניות SemanticCachePopulate זמין במאמר בנושא <TTLInSeconds>.

  • כדי להבטיח שנתוני התגובה יהיו הכי מדויקים, כדאי להשתמש באסטרטגיות מוגדרות מראש של שמירת נתונים במטמון.

    מומלץ להטמיע אסטרטגיות מוגדרות מראש של שמירה במטמון, בדומה לאסטרטגיות הבאות:

    • תשובות כלליות של AI: מגדירים TTL ארוך (לדוגמה, שעה) לתשובות שלא ספציפיות למשתמש.
    • תשובות שספציפיות למשתמש: אל תטמיעו שמירה במטמון, או שתגדירו TTL קצר (לדוגמה, חמש דקות) לתשובות שמכילות מידע ספציפי למשתמש.
    • תגובות שרגישות לזמן: מגדירים TTL קצר (לדוגמה, חמש דקות) לתגובות שדורשות עדכונים בזמן אמת או עדכונים תכופים.

הגדלת מכסות לשירותים תלויים

אם אתם נתקלים בצווארי בקבוק בביצועים כתוצאה ממספר גבוה יותר של שאילתות לשנייה (QPS), יכול להיות שתצטרכו להגדיל את המכסות הבאות של שירותים תלויים בפרויקט שלכם ב- Google Cloud :

  • בקשות לחיזוי אונליין לדקה לכל אזור (בחירה לפי אזור)
  • בקשות אזוריות לחיזוי אונליין לכל מודל בסיס לדקה לכל אזור (בוחרים לפי אזור ולפי מודל textembedding-gecko)
  • בקשות לעדכון הזרם של Matching Engine לדקה לכל אזור (אפשר לבחור לפי אזור)

כדי להגדיל את המכסה של אחד מהשירותים האלה:

  1. נכנסים לדף Quota & System Limits:

    כניסה לדף Quota & System Limits

  2. בסרגל הסינון, מזינים את השם של המכסה הספציפית שרוצים להגדיל, יחד עם האזור והמודל, אם רלוונטי.

    לדוגמה, אפשר לסנן לפי Regional online prediction requests per base model per minute per region,‏ textembedding-gecko ו-us-west1.

  3. לוחצים על התפריט של השירות שרוצים להגדיל את המכסה שלו ובוחרים באפשרות Edit quota (עריכת המכסה).
  4. מזינים ערך חדש וגבוה יותר למכסה.
  5. לוחצים על סיום.
  6. לוחצים על Submit request.

אחרי ששולחים את הבקשה, מתחיל תהליך הגדלת המכסה. אפשר לעקוב אחרי הסטטוס בדף Quotas & System Limits בכרטיסייה Increase requests.

מגבלות

המגבלות הבאות חלות על מדיניות שמירת נתונים במטמון סמנטי:

  • הגודל המקסימלי של טקסט שאפשר לשמור במטמון הוא 256KB. מידע נוסף זמין במאמר בנושא גודל ערך המטמון בדף מגבלות של Apigee.
  • מערכת Apigee מתעלמת מכל כותרות cache-control שהיא מקבלת ממודל ה-LLM.
  • אם המטמון לא מבוטל בצורה נכונה או אם האלגוריתם של הדמיון הסמנטי לא מספיק מדויק כדי להבחין בין קלטים עם משמעויות דומות מאוד, יכול להיות שהתשובה תחזיר מידע לא עדכני או שגוי.
  • התכונה 'חיפוש וקטורי' לא נתמכת בכל האזורים. רשימת האזורים הנתמכים מופיעה בקטע זמינות התכונות בדף המיקומים של Vertex AI. אם הארגון שלכם ב-Apigee נמצא באזור שלא נתמך, תצטרכו ליצור נקודות קצה של אינדקס באזור אחר מהארגון שלכם ב-Apigee.
  • אי אפשר להשתמש במדיניות בנושא שמירה במטמון סמנטי עם פרוקסי של API שמשתמשים ב-EventFlows להזרמת תגובות רציפה של אירועים שנשלחים מהשרת (SSE).
  • מדיניות שמירת הנתונים במטמון הסמנטי משתמשת בממשקי LLM API, ולכן יכול להיות שזמני האחזור יהיו גבוהים יותר, בסדר גודל של מאות אלפיות השנייה.
  • בהתקנות Apigee Hybrid, התמיכה במדיניות בנושא שמירת נתונים במטמון סמנטי מוגבלת להתקנות ב-Google Cloud Platform.
  • ‫Apigee hybrid לא תומך בפרוקסי קדימה עם מדיניות מטמון סמנטי.