התבנית Cloud Storage SequenceFile to Bigtable היא צינור שקורא נתונים מקובצי SequenceFile בקטגוריה של Cloud Storage וכותב את הנתונים לטבלת Bigtable. אפשר להשתמש בתבנית כדי להעתיק נתונים מ-Cloud Storage ל-Bigtable.
הדרישות לגבי צינורות עיבוד נתונים
- הטבלה ב-Bigtable חייבת להתקיים.
- קבצי SequenceFiles של הקלט צריכים להיות בקטגוריה של Cloud Storage לפני שמריצים את צינור העיבוד.
- קובצי הרצף של הקלט חייבים להיות קבצים שיוצאו מ-Bigtable או מ-HBase.
פרמטרים של תבניות
פרמטרים נדרשים
- bigtableProject: המזהה של פרויקט הענן ב-Google Cloud שמכיל את מופע Bigtable שאליו רוצים לכתוב נתונים.
- bigtableInstanceId: המזהה של מכונת Bigtable שמכילה את הטבלה.
- bigtableTableId: המזהה של טבלת Bigtable לייבוא.
- sourcePattern: תבנית הנתיב של Cloud Storage למיקום הנתונים. לדוגמה,
gs://your-bucket/your-path/prefix*.
פרמטרים אופציונליים
- bigtableAppProfileId: המזהה של פרופיל האפליקציה ב-Bigtable שבו רוצים להשתמש לייבוא. אם לא מציינים פרופיל אפליקציה, Bigtable משתמש בפרופיל האפליקציה שמוגדר כברירת מחדל במופע (https://cloud.google.com/bigtable/docs/app-profiles#default-app-profile).
- mutationThrottleLatencyMs: אופציונלי. הגדרת הגבלת קצב של זמן האחזור של שינויים (מפעילה את התכונה). הערך באלפיות השנייה. ברירת המחדל היא 0.
הפעלת התבנית
המסוף
- עוברים לדף Dataflow Create job from template (יצירת משימה מתבנית). כניסה לדף Create job from template
- בשדה שם המשימה, מזינים שם ייחודי למשימה.
- אופציונלי: בשדה Regional endpoint (נקודת קצה אזורית), בוחרים ערך מהתפריט הנפתח. אזור ברירת המחדל הוא
us-central1.רשימת האזורים שבהם אפשר להריץ משימת Dataflow מופיעה במאמר מיקומי Dataflow.
- בתפריט הנפתח Dataflow template (תבנית של העברת נתונים), בוחרים באפשרות the SequenceFile Files on Cloud Storage to Cloud Bigtable template.
- בשדות הפרמטרים שמופיעים, מזינים את ערכי הפרמטרים.
- לוחצים על הפעלת העבודה.
gcloud
במעטפת או בטרמינל, מריצים את התבנית:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_SequenceFile_to_Cloud_Bigtable \ --region REGION_NAME \ --parameters \ bigtableProject=BIGTABLE_PROJECT_ID,\ bigtableInstanceId=INSTANCE_ID,\ bigtableTableId=TABLE_ID,\ bigtableAppProfileId=APPLICATION_PROFILE_ID,\ sourcePattern=SOURCE_PATTERN
מחליפים את מה שכתוב בשדות הבאים:
-
JOB_NAME: שם ייחודי של המשימה לפי בחירתכם -
VERSION: הגרסה של התבנית שבה רוצים להשתמשאפשר להשתמש בערכים הבאים:
-
latestכדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/ - שם הגרסה, כמו
2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
-
-
REGION_NAME: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה:us-central1 -
BIGTABLE_PROJECT_ID: המזהה של Google Cloud הפרויקט של מופע Bigtable שממנו רוצים לקרוא נתונים -
INSTANCE_ID: המזהה של מופע Bigtable שמכיל את הטבלה -
TABLE_ID: המזהה של טבלת Bigtable לייצוא -
APPLICATION_PROFILE_ID: המזהה של פרופיל האפליקציה ב-Bigtable שבו ישתמשו לייצוא -
SOURCE_PATTERN: תבנית הנתיב ב-Cloud Storage שבה נמצאים הנתונים, לדוגמה,gs://mybucket/somefolder/prefix*
API
כדי להריץ את התבנית באמצעות API בארכיטקטורת REST, שולחים בקשת HTTP POST. מידע נוסף על ה-API ועל היקפי ההרשאות שלו זמין במאמר projects.templates.launch.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_SequenceFile_to_Cloud_Bigtable { "jobName": "JOB_NAME", "parameters": { "bigtableProject": "BIGTABLE_PROJECT_ID", "bigtableInstanceId": "INSTANCE_ID", "bigtableTableId": "TABLE_ID", "bigtableAppProfileId": "APPLICATION_PROFILE_ID", "sourcePattern": "SOURCE_PATTERN", }, "environment": { "zone": "us-central1-f" } }
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו רוצים להריץ את משימת Dataflow Google Cloud -
JOB_NAME: שם ייחודי של המשימה לפי בחירתכם -
VERSION: הגרסה של התבנית שבה רוצים להשתמשאפשר להשתמש בערכים הבאים:
-
latestכדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/ - שם הגרסה, כמו
2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
-
-
LOCATION: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה:us-central1 -
BIGTABLE_PROJECT_ID: המזהה של Google Cloud הפרויקט של מופע Bigtable שממנו רוצים לקרוא נתונים -
INSTANCE_ID: המזהה של מופע Bigtable שמכיל את הטבלה -
TABLE_ID: המזהה של טבלת Bigtable לייצוא -
APPLICATION_PROFILE_ID: המזהה של פרופיל האפליקציה ב-Bigtable שבו ישתמשו לייצוא -
SOURCE_PATTERN: תבנית הנתיב ב-Cloud Storage שבה נמצאים הנתונים, לדוגמה,gs://mybucket/somefolder/prefix*