תבנית הצינור Spanner to Avro Files on Cloud Storage היא צינור אצווה שמייצא מסד נתונים שלם של Spanner ל-Cloud Storage בפורמט Avro. כשמייצאים מסד נתונים של Spanner, נוצרת תיקייה בדלי שבחרתם. התיקייה מכילה:
- קובץ
spanner-export.json. - קובץ
TableName-manifest.jsonלכל טבלה במסד הנתונים שייצאתם. - קובץ אחד או יותר מסוג
TableName.avro-#####-of-#####.
לדוגמה, אם מייצאים מסד נתונים עם שתי טבלאות, Singers ו-Albums, נוצרת קבוצת הקבצים הבאה:
Albums-manifest.jsonAlbums.avro-00000-of-00002Albums.avro-00001-of-00002Singers-manifest.jsonSingers.avro-00000-of-00003Singers.avro-00001-of-00003Singers.avro-00002-of-00003spanner-export.json
הדרישות לגבי צינורות עיבוד נתונים
- מסד הנתונים ב-Spanner חייב להתקיים.
- קטגוריית הפלט של Cloud Storage חייבת להתקיים.
- בנוסף לתפקידי ניהול הזהויות והרשאות הגישה (IAM) שנדרשים להפעלת משימות Dataflow, אתם צריכים גם את תפקידי ה-IAM המתאימים כדי לקרוא את נתוני Spanner ולכתוב לקטגוריה של Cloud Storage.
פרמטרים של תבניות
פרמטרים נדרשים
- instanceId: מספר המכונה של מסד הנתונים ב-Spanner שרוצים לייצא.
- databaseId: מזהה מסד הנתונים של Spanner שרוצים לייצא.
- outputDir: הנתיב ב-Cloud Storage לייצוא קובצי Avro. תהליך הייצוא יוצר ספרייה חדשה בנתיב הזה שמכילה את הקבצים שיוצאו. לדוגמה,
gs://your-bucket/your-path.
פרמטרים אופציונליים
- avroTempDirectory: הנתיב ב-Cloud Storage שבו נכתבים קובצי Avro זמניים.
- spannerHost: נקודת הקצה של Cloud Spanner שאליה מתבצעת קריאה בתבנית. היא משמשת לבדיקה בלבד. לדוגמה,
https://batch-spanner.googleapis.com. ברירת המחדל היא: https://batch-spanner.googleapis.com. - snapshotTime: חותמת הזמן שמתאימה לגרסה של מסד הנתונים של Spanner שרוצים לקרוא. חותמת הזמן צריכה להיות בפורמט
ZuluRFC 3339 UTC. חותמת הזמן חייבת להיות בעבר, ויש להקפיד על חותמת זמן עדכנית. לדוגמה,1990-12-31T23:59:60Z. ברירת המחדל היא ריק. - spannerProjectId: המזהה של הפרויקט בענן של Google שמכיל את מסד הנתונים של Spanner שממנו רוצים לקרוא נתונים.
- shouldExportTimestampAsLogicalType: אם הערך הוא
true, חותמות הזמן מיוצאים כסוגlongעם סוג לוגיtimestamp-micros. כברירת מחדל, הפרמטר הזה מוגדר ל-falseוחתימות הזמן מיוצאות כמחרוזות ISO-8601 ברמת דיוק של ננו-שנייה. - tableNames: רשימה מופרדת בפסיקים של טבלאות שמציינת את קבוצת המשנה של מסד הנתונים של Spanner לייצוא. אם מגדירים את הפרמטר הזה, צריך לכלול את כל הטבלאות שקשורות אליו (טבלאות אב וטבלאות עם הפניה למפתח זר) או להגדיר את הפרמטר
shouldExportRelatedTablesלערךtrue.אם הטבלה נמצאת בסכימה עם שם, צריך להשתמש בשם המוגדר במלואו. לדוגמה:sch1.foo, שבוsch1הוא שם הסכימה ו-fooהוא שם הטבלה. ברירת המחדל היא ריק. - shouldExportRelatedTables: האם לכלול טבלאות קשורות. הפרמטר הזה משמש בשילוב עם הפרמטר
tableNames. ברירת המחדל היא: false. - spannerPriority: העדיפות של הבקשה לקריאות Spanner. הערכים האפשריים הם
HIGH,MEDIUMו-LOW. ערך ברירת המחדל הואMEDIUM. - dataBoostEnabled: מגדירים את הערך ל-
trueכדי להשתמש במשאבי החישוב של Spanner Data Boost להרצת העבודה עם השפעה כמעט אפסית על תהליכי העבודה של Spanner OLTP. אם מגדירים את האילוץ ל-true, נדרשת גם הרשאת ה-IAMspanner.databases.useDataBoost. מידע נוסף זמין במאמר בנושא Data Boost (https://cloud.google.com/spanner/docs/databoost/databoost-overview). ברירת המחדל היא: false.
הפעלת התבנית
המסוף
- עוברים לדף Dataflow Create job from template (יצירת משימה מתבנית). כניסה לדף Create job from template
- בשדה שם המשימה, מזינים שם ייחודי למשימה.
- אופציונלי: בשדה Regional endpoint (נקודת קצה אזורית), בוחרים ערך מהתפריט הנפתח. אזור ברירת המחדל הוא
us-central1.רשימת האזורים שבהם אפשר להריץ משימת Dataflow מופיעה במאמר מיקומי Dataflow.
- בתפריט הנפתח Dataflow template (תבנית של העברת נתונים), בוחרים באפשרות the Cloud Spanner to Avro Files on Cloud Storage template.
- בשדות הפרמטרים שמופיעים, מזינים את ערכי הפרמטרים.
- לוחצים על הפעלת העבודה.
gcloud
בדוגמה הזו נעשה שימוש בפקודה
gcloud dataflow jobs run.
במעטפת או בטרמינל, מריצים את התבנית:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Spanner_to_GCS_Avro \ --region REGION_NAME \ --staging-location GCS_STAGING_LOCATION \ --parameters 'instanceId=INSTANCE_ID,databaseId=DATABASE_ID,outputDir=GCS_DIRECTORY'
מחליפים את מה שכתוב בשדות הבאים:
-
JOB_NAME: שם ייחודי של המשימה לפי בחירתכםכדי שהמשרה תופיע בחלק של Spanner במסוף Google Cloud , שם המשרה צריך להיות בפורמט
cloud-spanner--INSTANCE_ID-DATABASE_ID. -
VERSION: הגרסה של התבנית שבה רוצים להשתמשאפשר להשתמש בערכים הבאים:
-
latestכדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/ - שם הגרסה, כמו
2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
-
-
REGION_NAME: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה:us-central1 -
GCS_STAGING_LOCATION: הנתיב לכתיבת קבצים זמניים. לדוגמה:gs://mybucket/temp -
INSTANCE_ID: מזהה מכונת Spanner -
DATABASE_ID: מזהה מסד הנתונים של Spanner -
GCS_DIRECTORY: הנתיב ב-Cloud Storage שאליו קובצי ה-Avro ממנו הם מיובאים
API
כדי להריץ את התבנית באמצעות API בארכיטקטורת REST, שולחים בקשת HTTP POST. מידע נוסף על ה-API ועל היקפי ההרשאות שלו זמין במאמר projects.templates.launch.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Spanner_to_GCS_Avro { "jobName": "JOB_NAME", "parameters": { "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "outputDir": "gs://GCS_DIRECTORY" } }
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו רוצים להריץ את משימת Dataflow Google Cloud -
JOB_NAME: שם ייחודי של המשימה לפי בחירתכםכדי שהמשרה תופיע בחלק של Spanner במסוף Google Cloud , שם המשרה צריך להיות בפורמט
cloud-spanner--INSTANCE_ID-DATABASE_ID. -
VERSION: הגרסה של התבנית שבה רוצים להשתמשאפשר להשתמש בערכים הבאים:
-
latestכדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/ - שם הגרסה, כמו
2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
-
-
LOCATION: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה:us-central1 -
GCS_STAGING_LOCATION: הנתיב לכתיבת קבצים זמניים. לדוגמה:gs://mybucket/temp -
INSTANCE_ID: מזהה מכונת Spanner -
DATABASE_ID: מזהה מסד הנתונים של Spanner -
GCS_DIRECTORY: הנתיב ב-Cloud Storage שאליו קובצי ה-Avro ממנו הם מיובאים