Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

תבנית Bigtable ל-Cloud Storage SequenceFile

התבנית Bigtable to Cloud Storage SequenceFile היא פייפליין שקורא נתונים מטבלת Bigtable וכותב את הנתונים לקטגוריה של Cloud Storage בפורמט SequenceFile. אפשר להשתמש בתבנית כדי להעתיק נתונים מ-Bigtable ל-Cloud Storage.

הדרישות לגבי צינורות עיבוד נתונים

הטבלה ב-Bigtable חייבת להתקיים.
הקטגוריה של Cloud Storage שרוצים לייצא אליה תוכן צריכה להתקיים לפני שמריצים את צינור הנתונים.

פרמטרים של תבניות

פרמטרים נדרשים

‫bigtableProject: המזהה של הפרויקט ב-Google Cloud שמכיל את מופע Bigtable שממנו רוצים לקרוא נתונים.
‫bigtableInstanceId: המזהה של מכונת Bigtable שמכילה את הטבלה.
‫bigtableTableId: המזהה של טבלת Bigtable לייצוא.
‫destinationPath: הנתיב ב-Cloud Storage שבו הנתונים נכתבים. לדוגמה, gs://your-bucket/your-path/.
‫filenamePrefix: הקידומת של שם הקובץ SequenceFile. לדוגמה, output-.

פרמטרים אופציונליים

‫bigtableAppProfileId: המזהה של פרופיל האפליקציה ב-Bigtable שבו רוצים להשתמש לייצוא. אם לא מציינים פרופיל אפליקציה, Bigtable משתמש בפרופיל האפליקציה שמוגדר כברירת מחדל במופע: https://cloud.google.com/bigtable/docs/app-profiles#default-app-profile.
‫bigtableStartRow: השורה שבה מתחיל הייצוא. ברירת המחדל היא השורה הראשונה.
‫bigtableStopRow: השורה שבה הייצוא יופסק. ברירת המחדל היא השורה האחרונה.
‫bigtableMaxVersions: מספר הגרסאות המקסימלי של התאים. ברירת המחדל היא: 2147483647.
‫bigtableFilter: מחרוזת של מסנן. למידע נוסף: http://hbase.apache.org/book.html#thrift. ברירת המחדל היא ריק.
‫bigtableReadRpcTimeoutMs: הזמן הקצוב לתפוגת RPC של קריאה ב-Bigtable, באלפיות השנייה.
‫bigtableReadRpcAttemptTimeoutMs: הזמן הקצוב לתפוגת ניסיון קריאה של RPC ב-Bigtable, באלפיות השנייה.
‫bigtableMaxAttempts: המספר המקסימלי של ניסיונות חוזרים ללקוח Bigtable.

הרצת התבנית

המסוף

עוברים לדף Create job from template (יצירת משימה מתבנית) ב-Dataflow.

כניסה לדף Create job from template

בשדה שם המשימה, מזינים שם ייחודי למשימה.
אופציונלי: בשדה Regional endpoint (נקודת קצה אזורית), בוחרים ערך מהתפריט הנפתח. אזור ברירת המחדל הוא us-central1.
רשימת האזורים שבהם אפשר להריץ משימת Dataflow מופיעה במאמר בנושא מיקומי Dataflow.
בתפריט הנפתח Dataflow template (תבנית Dataflow), בוחרים את התבנית Cloud Bigtable to SequenceFile Files on Cloud Storage (Cloud Bigtable לקבצים מסוג SequenceFile ב-Cloud Storage).
בשדות הפרמטרים שמופיעים, מזינים את ערכי הפרמטרים.
לוחצים על הפעלת העבודה.

gcloud

במעטפת או בטרמינל, מריצים את התבנית:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/ \
    --region REGION_NAME \
    --parameters \
bigtableProject=BIGTABLE_PROJECT_ID,\
bigtableInstanceId=INSTANCE_ID,\
bigtableTableId=TABLE_ID,\
bigtableAppProfileId=APPLICATION_PROFILE_ID,\
destinationPath=DESTINATION_PATH,\
filenamePrefix=FILENAME_PREFIX

מחליפים את מה שכתוב בשדות הבאים:

‫JOB_NAME: שם ייחודי של המשימה לפי בחירתכם
‫VERSION: הגרסה של התבנית שבה רוצים להשתמש
אפשר להשתמש בערכים הבאים:
- ‫latest כדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית האב ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/
- שם הגרסה, כמו 2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
זהירות: יכול להיות שעדכונים בגרסה העדכנית של התבניות יגרמו לשינויים שישברו את התאימות לאחור. כדי שהשינויים האלה לא ישפיעו על תהליכי העבודה שלכם בסביבת הייצור, בסביבות הייצור צריך להשתמש בתבניות שנשמרו בתיקייה הראשית עם תאריך העדכנית ביותר.
‫REGION_NAME: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה: us-central1
‫BIGTABLE_PROJECT_ID: המזהה של Google Cloud הפרויקט של מופע Bigtable שרוצים לקרוא ממנו נתונים
‫INSTANCE_ID: המזהה של מופע Bigtable שמכיל את הטבלה
‫TABLE_ID: המזהה של טבלת Bigtable לייצוא
‫APPLICATION_PROFILE_ID: המזהה של פרופיל האפליקציה של Bigtable שישמש לייצוא
‫DESTINATION_PATH: הנתיב ב-Cloud Storage שבו הנתונים נכתבים, לדוגמה, gs://mybucket/somefolder
‫FILENAME_PREFIX: הקידומת של שם הקובץ SequenceFile, לדוגמה, output-

API

כדי להריץ את התבנית באמצעות API בארכיטקטורת REST, שולחים בקשת HTTP POST. מידע נוסף על ה-API ועל היקפי ההרשאות שלו זמין במאמר projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/
{
   "jobName": "JOB_NAME",
   "parameters": {
       "bigtableProject": "BIGTABLE_PROJECT_ID",
       "bigtableInstanceId": "INSTANCE_ID",
       "bigtableTableId": "TABLE_ID",
       "bigtableAppProfileId": "APPLICATION_PROFILE_ID",
       "destinationPath": "DESTINATION_PATH",
       "filenamePrefix": "FILENAME_PREFIX",
   },
   "environment": { "zone": "us-central1-f" }
}