Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

תבנית Bigtable לחיפוש וקטורים ב-Vertex AI

התבנית ליצירת קבצים של חיפוש וקטורי מ-Bigtable אל Vertex AI ב-Cloud Storage יוצרת צינור עיבוד נתונים של אצווה שקורא נתונים מטבלה ב-Bigtable וכותב אותם לקטגוריה של Cloud Storage בפורמט JSON. אפשר להשתמש בתבנית הזו להטמעת וקטורים.

הדרישות לגבי צינורות עיבוד נתונים

הטבלה ב-Bigtable חייבת להתקיים.
הקטגוריה של Cloud Storage שרוצים לייצא אליה תוכן צריכה להתקיים לפני שמריצים את צינור העיבוד.

פרמטרים של תבניות

פרמטרים נדרשים

‫bigtableProjectId: המזהה של הפרויקט ב-Google Cloud שמכיל את מופע Bigtable שממנו רוצים לקרוא נתונים.
‫bigtableInstanceId: המזהה של מכונת Bigtable שמכילה את הטבלה.
‫bigtableTableId: המזהה של טבלת Bigtable שממנה רוצים לקרוא.
‫outputDirectory: הנתיב ב-Cloud Storage שבו מאוחסנים קובצי ה-JSON של הפלט. לדוגמה, gs://your-bucket/your-path/.
‫idColumn: השם המלא של העמודה שבה מאוחסן המזהה. בפורמט cf:col או _key.
‫embeddingColumn: שם העמודה המלא שבה מאוחסנים ההטמעות. בפורמט cf:col או _key.

הרצת התבנית

המסוף

עוברים לדף Create job from template (יצירת משימה מתבנית) ב-Dataflow.

כניסה לדף Create job from template

בשדה שם המשימה, מזינים שם ייחודי למשימה.
אופציונלי: בשדה Regional endpoint (נקודת קצה אזורית), בוחרים ערך מהתפריט הנפתח. אזור ברירת המחדל הוא us-central1.
רשימת האזורים שבהם אפשר להריץ משימת Dataflow מופיעה במאמר בנושא מיקומי Dataflow.
בתפריט הנפתח Dataflow template (תבנית Dataflow), בוחרים בתבנית Cloud Bigtable to Vector Embeddings (מ-Cloud Bigtable להטמעות וקטוריות).
בשדות הפרמטרים שמופיעים, מזינים את ערכי הפרמטרים.
לוחצים על הפעלת העבודה.

‫CLI של gcloud

במעטפת או בטרמינל, מריצים את התבנית:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/ \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --parameters \
       bigtableProjectId=BIGTABLE_PROJECT_ID,\
       bigtableInstanceId=BIGTABLE_INSTANCE_ID,\
       bigtableTableId=BIGTABLE_TABLE_ID,\
       filenamePrefix=FILENAME_PREFIX,\
       idColumn=ID_COLUMN,\
       embeddingColumn=EMBEDDING_COLUMN,\

מחליפים את מה שכתוב בשדות הבאים:

‫JOB_NAME: שם ייחודי של המשימה לפי בחירתכם
‫VERSION: הגרסה של התבנית שבה רוצים להשתמש
אפשר להשתמש בערכים הבאים:
- ‫latest כדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית האב ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/
- שם הגרסה, כמו 2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
זהירות: יכול להיות שעדכונים בגרסה העדכנית של התבניות יגרמו לשינויים שישברו את התאימות לאחור. כדי שהשינויים האלה לא ישפיעו על תהליכי העבודה שלכם בסביבת הייצור, בסביבות הייצור צריך להשתמש בתבניות שנשמרו בתיקייה הראשית עם תאריך העדכנית ביותר.
‫REGION_NAME: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה: us-central1
‫BIGTABLE_PROJECT_ID: מזהה הפרויקט
‫BIGTABLE_INSTANCE_ID: מזהה המכונה
‫BIGTABLE_TABLE_ID: מזהה הטבלה
‫FILENAME_PREFIX: הקידומת של קובץ ה-JSON
ID_COLUMN: עמודת המזהה
‫EMBEDDING_COLUMN: עמודת ההטמעות

API

כדי להריץ את התבנית באמצעות API בארכיטקטורת REST, שולחים בקשת HTTP POST. מידע נוסף על ה-API ועל היקפי ההרשאות שלו זמין במאמר projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/
{
   "jobName": "JOB_NAME",
   "parameters": {
     "bigtableProjectId": "BIGTABLE_PROJECT_ID",
     "bigtableInstanceId": "BIGTABLE_INSTANCE_ID",
     "bigtableTableId": "BIGTABLE_TABLE_ID",
     "filenamePrefix": "FILENAME_PREFIX",
     "idColumn": "ID_COLUMN",
     "embeddingColumn": "EMBEDDING_COLUMN",
   },
   "environment": { "maxWorkers": "10" }
}