צינור הנתונים (pipeline) של קובצי CSV מ-Cloud Storage ל-BigQuery הוא צינור נתונים של אצווה שמאפשר לקרוא נתונים מקובצי CSV שמאוחסנים ב-Cloud Storage ולצרף את התוצאה לטבלה ב-BigQuery.
קבצי ה-CSV יכולים להיות לא דחוסים או דחוסים בפורמטים שמפורטים בדף של Enum SDK Compression.
הדרישות לגבי צינורות עיבוד נתונים
כדי להשתמש בתבנית הזו, צינור המכירות צריך לעמוד בדרישות הבאות.
קובץ JSON של סכימת BigQuery
יוצרים קובץ JSON שמתאר את הסכימה של BigQuery.
מוודאים שלסכימה יש מערך JSON ברמה העליונה בשם BigQuery Schema, ושהתוכן שלו תואם לתבנית {"name": "COLUMN_NAME", "type": "DATA_TYPE"}.
תבנית האצווה של קובצי CSV מ-Cloud Storage ל-BigQuery לא תומכת בייבוא נתונים לשדות STRUCT (Record) בטבלת היעד ב-BigQuery.
הנה דוגמה לסכימת BigQuery בפורמט JSON:
{ "BigQuery Schema": [ { "name": "location", "type": "STRING" }, { "name": "name", "type": "STRING" }, { "name": "age", "type": "STRING" }, { "name": "color", "type": "STRING" }, { "name": "coffee", "type": "STRING" } ] }
סכמת טבלת השגיאות
הטבלה ב-BigQuery שבה מאוחסנות הרשומות שנדחו מקובצי ה-CSV צריכה להתאים לסכימת הטבלה שמוגדרת כאן.
{ "BigQuery Schema": [ { "name": "RawContent", "type": "STRING" }, { "name": "ErrorMsg", "type": "STRING" } ] }
פרמטרים של תבניות
פרמטרים נדרשים
- inputFilePattern: הנתיב ב-Cloud Storage לקובץ ה-CSV שמכיל את הטקסט לעיבוד. לדוגמה,
gs://your-bucket/path/*.csv. - schemaJSONPath: הנתיב ב-Cloud Storage לקובץ ה-JSON שמגדיר את הסכימה של BigQuery.
- outputTable: השם של הטבלה ב-BigQuery שבה מאוחסנים הנתונים המעובדים. אם משתמשים מחדש בטבלת BigQuery קיימת, הנתונים מצורפים לטבלת היעד.
- bigQueryLoadingTemporaryDirectory: ספריית הזמנית לשימוש במהלך תהליך הטעינה של BigQuery. לדוגמה,
gs://your-bucket/your-files/temp_dir. - badRecordsOutputTable: השם של הטבלה ב-BigQuery שבה יישמרו הנתונים שנדחו במהלך העיבוד של קובצי ה-CSV. אם משתמשים מחדש בטבלת BigQuery קיימת, הנתונים מצורפים לטבלת היעד. הסכימה של הטבלה הזו צריכה להיות זהה לסכימה של טבלת השגיאות (https://cloud.google.com/dataflow/docs/guides/templates/provided/cloud-storage-csv-to-bigquery#GcsCSVToBigQueryBadRecordsSchema).
- delimiter: התו שמפריד בין העמודות בקובץ ה-CSV. לדוגמה,
,. - csvFormat: פורמט ה-CSV בהתאם לפורמט Apache Commons CSV. ברירת המחדל:
Default.
פרמטרים אופציונליים
- containsHeaders: האם קובץ ה-CSV כולל כותרות. ברירת המחדל:
false. - csvFileEncoding: פורמט קידוד התווים של קובץ ה-CSV. הערכים המותרים הם
US-ASCII,ISO-8859-1,UTF-8ו-UTF-16. ברירת המחדל היא UTF-8.
הפעלת התבנית
המסוף
- עוברים לדף Dataflow Create job from template (יצירת משימה מתבנית). כניסה לדף Create job from template
- בשדה שם המשימה, מזינים שם ייחודי למשימה.
- אופציונלי: בשדה Regional endpoint (נקודת קצה אזורית), בוחרים ערך מהתפריט הנפתח. אזור ברירת המחדל הוא
us-central1.רשימת האזורים שבהם אפשר להריץ משימת Dataflow מופיעה במאמר מיקומי Dataflow.
- בתפריט הנפתח Dataflow template (תבנית של העברת נתונים), בוחרים באפשרות the CSV files on Cloud Storage to BigQuery (Batch) template.
- בשדות הפרמטרים שמופיעים, מזינים את ערכי הפרמטרים.
- לוחצים על הפעלת העבודה.
gcloud
במעטפת או בטרמינל, מריצים את התבנית:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_CSV_to_BigQuery \ --region REGION_NAME \ --parameters \ inputFilePattern=PATH_TO_CSV_DATA,\ schemaJSONPath=PATH_TO_BIGQUERY_SCHEMA_JSON,\ outputTable=BIGQUERY_DESTINATION_TABLE,\ badRecordsOutputTable=BIGQUERY_BAD_RECORDS_TABLE,\ csvFormat=CSV_FORMAT,\ delimiter=DELIMITER,\ bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS,\ containsHeaders=CONTAINS_HEADERS,\ csvFileEncoding=CSV_FILE_ENCODING
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו רוצים להריץ את משימת Dataflow Google Cloud -
JOB_NAME: שם ייחודי של המשימה לפי בחירתכם -
VERSION: הגרסה של התבנית שבה רוצים להשתמשאפשר להשתמש בערכים הבאים:
-
latestכדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/ - שם הגרסה, כמו
2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
-
-
REGION_NAME: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה:us-central1 -
PATH_TO_CSV_DATA: הנתיב ב-Cloud Storage לקובצי ה-CSV -
PATH_TO_BIGQUERY_SCHEMA_JSON: הנתיב ב-Cloud Storage אל קובץ ה-JSON שמכיל את הגדרת הסכימה -
BIGQUERY_DESTINATION_TABLE: השם של טבלת היעד ב-BigQuery -
BIGQUERY_BAD_RECORDS_TABLE: השם של טבלת הרשומות הפגומות ב-BigQuery -
PATH_TO_TEMP_DIR_ON_GCS: הנתיב ב-Cloud Storage לספריית הזמנית -
DELIMITER: תו הפרדה בקובץ CSV -
CSV_FORMAT: מפרט פורמט CSV לניתוח רשומות -
CONTAINS_HEADERS: האם קובצי ה-CSV מכילים כותרות -
CSV_FILE_ENCODING: קידוד בקובצי ה-CSV
API
כדי להריץ את התבנית באמצעות API בארכיטקטורת REST, שולחים בקשת HTTP POST. מידע נוסף על ה-API ועל היקפי ההרשאות שלו זמין במאמר projects.templates.launch.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_CSV_to_BigQuery { "jobName": "JOB_NAME", "parameters": { "inputFilePattern":"PATH_TO_CSV_DATA", "schemaJSONPath": "PATH_TO_BIGQUERY_SCHEMA_JSON", "outputTable":"BIGQUERY_DESTINATION_TABLE", "badRecordsOutputTable":"BIGQUERY_BAD_RECORDS_TABLE", "csvFormat":"CSV_FORMAT", "delimiter":"DELIMITER", "bigQueryLoadingTemporaryDirectory": "PATH_TO_TEMP_DIR_ON_GCS", "containsHeaders": "CONTAINS_HEADERS", "csvFileEncoding": "CSV_FILE_ENCODING" }, "environment": { "zone": "us-central1-f" } }
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט שבו רוצים להריץ את משימת Dataflow Google Cloud -
JOB_NAME: שם ייחודי של המשימה לפי בחירתכם -
VERSION: הגרסה של התבנית שבה רוצים להשתמשאפשר להשתמש בערכים הבאים:
-
latestכדי להשתמש בגרסה העדכנית של התבנית, שזמינה בתיקיית ההורה ללא תאריך בדלי – gs://dataflow-templates-REGION_NAME/latest/ - שם הגרסה, כמו
2023-09-12-00_RC00, כדי להשתמש בגרסה ספציפית של התבנית, שאפשר למצוא אותה בתיקיית האב המתאימה עם התאריך בדלי – gs://dataflow-templates-REGION_NAME/
-
-
LOCATION: האזור שבו רוצים לפרוס את עבודת Dataflow, לדוגמה:us-central1 -
PATH_TO_CSV_DATA: הנתיב ב-Cloud Storage לקובצי ה-CSV -
PATH_TO_BIGQUERY_SCHEMA_JSON: הנתיב ב-Cloud Storage אל קובץ ה-JSON שמכיל את הגדרת הסכימה -
BIGQUERY_DESTINATION_TABLE: השם של טבלת היעד ב-BigQuery -
BIGQUERY_BAD_RECORDS_TABLE: השם של טבלת הרשומות הפגומות ב-BigQuery -
PATH_TO_TEMP_DIR_ON_GCS: הנתיב ב-Cloud Storage לספריית הזמנית -
DELIMITER: תו הפרדה בקובץ CSV -
CSV_FORMAT: מפרט פורמט CSV לניתוח רשומות -
CONTAINS_HEADERS: האם קובצי ה-CSV מכילים כותרות -
CSV_FILE_ENCODING: קידוד בקובצי ה-CSV