תבנית Cloud Storage ל-BigQuery

אפשר להשתמש בתבנית Serverless for Apache Spark Cloud Storage to BigQuery כדי לחלץ נתונים מ-Cloud Storage ל-BigQuery.

שימוש בתבנית

מריצים את התבנית באמצעות ה-CLI של gcloud או Dataproc API.

gcloud

לפני השימוש בנתוני הפקודה הבאים, צריך להחליף את הנתונים הבאים:

‫PROJECT_ID: חובה. מזהה הפרויקט שלכם מופיע בהגדרות IAM. Google Cloud
‫REGION: חובה. אזור Compute Engine.
‫TEMPLATE_VERSION: חובה. מציינים latest לגרסה העדכנית ביותר של התבנית, או את התאריך של גרסה ספציפית, לדוגמה, 2023-03-17_v0.1.0-beta (אפשר להיכנס לכתובת gs://dataproc-templates-binaries או להריץ את הפקודה gcloud storage ls gs://dataproc-templates-binaries כדי לראות רשימה של גרסאות התבניות הזמינות).
‫CLOUD_STORAGE_PATH: חובה. נתיב של Cloud Storage כמקור.
דוגמה: gs://dataproc-templates/hive_to_cloud_storage_output"
‫FORMAT: חובה. פורמט נתוני הקלט. אפשרויות: avro, parquet, csv, או json. הערה: אם avro, צריך להוסיף את file:///usr/lib/spark/connector/spark-avro.jar לדגל jars של ה-CLI של gcloud או לשדה API.
דוגמה (הקידומת file:// מתייחסת לקובץ jar של Serverless for Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... other jars]
‫DATASET: חובה. מערך הנתונים של היעד ב-BigQuery.
‫TABLE: חובה. טבלה ב-BigQuery.
‫TEMP_BUCKET: חובה. קטגוריה זמנית של Cloud Storage שמשמשת לאחסון נתונים במחסן ביניים לפני הטעינה ל-BigQuery.
‫SUBNET: אופציונלי. אם לא מציינים רשת משנה, המערכת בוחרת את רשת המשנה באזור שצוין ברשת default.
דוגמה: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
‫TEMPVIEW ו-SQL_QUERY: אופציונליים. אפשר להשתמש בשני הפרמטרים האופציונליים האלה כדי להחיל טרנספורמציה של Spark SQL בזמן טעינת הנתונים ל-BigQuery. ‫TEMPVIEW הוא שם התצוגה הזמנית, ו-SQL_QUERY הוא הצהרת השאילתה. השם של TEMPVIEW חייב להיות זהה לשם הטבלה ב-SQL_QUERY.
‫SERVICE_ACCOUNT: אופציונלי. אם לא תציינו חשבון שירות, המערכת תשתמש בחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine.
‫PROPERTY ו-PROPERTY_VALUE: אופציונליים. רשימה מופרדת בפסיקים של זוגות מאפייני Spark=value.
‫LABEL ו-LABEL_VALUE: אופציונליים. רשימה מופרדת בפסיקים של זוגות label=value.
‫LOG_LEVEL: אופציונלי. רמת הרישום ביומן. יכול להיות אחד מהערכים הבאים: ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE או WARN. ברירת מחדל: INFO.
‫KMS_KEY: אופציונלי. המפתח של Cloud Key Management Service שבו יש להשתמש להצפנה. אם לא מציינים מפתח, הנתונים מוצפנים באחסון באמצעות Google-owned and Google-managed encryption key.
דוגמה: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

מריצים את הפקודה הבאה:

‫Linux,‏ macOS או Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --version="1.2" \
    --project="PROJECT_ID" \
    --region="REGION" \
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=GCSTOBIGQUERY \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty gcs.bigquery.input.location="CLOUD_STORAGE_PATH" \
    --templateProperty gcs.bigquery.input.format="FORMAT" \
    --templateProperty gcs.bigquery.output.dataset="DATASET" \
    --templateProperty gcs.bigquery.output.table="TABLE" \
    --templateProperty gcs.bigquery.temp.bucket.name="TEMP_BUCKET" \
    --templateProperty gcs.bigquery.temp.table="TEMPVIEW" \
    --templateProperty gcs.bigquery.temp.query="SQL_QUERY"

‏Windows (PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --version="1.2" `
    --project="PROJECT_ID" `
    --region="REGION" `
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=GCSTOBIGQUERY `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty gcs.bigquery.input.location="CLOUD_STORAGE_PATH" `
    --templateProperty gcs.bigquery.input.format="FORMAT" `
    --templateProperty gcs.bigquery.output.dataset="DATASET" `
    --templateProperty gcs.bigquery.output.table="TABLE" `
    --templateProperty gcs.bigquery.temp.bucket.name="TEMP_BUCKET" `
    --templateProperty gcs.bigquery.temp.table="TEMPVIEW" `
    --templateProperty gcs.bigquery.temp.query="SQL_QUERY"

Windows‏ (cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --version="1.2" ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=GCSTOBIGQUERY ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty gcs.bigquery.input.location="CLOUD_STORAGE_PATH" ^
    --templateProperty gcs.bigquery.input.format="FORMAT" ^
    --templateProperty gcs.bigquery.output.dataset="DATASET" ^
    --templateProperty gcs.bigquery.output.table="TABLE" ^
    --templateProperty gcs.bigquery.temp.bucket.name="TEMP_BUCKET" ^
    --templateProperty gcs.bigquery.temp.table="TEMPVIEW" ^
    --templateProperty gcs.bigquery.temp.query="SQL_QUERY"

REST

לפני שמשתמשים בנתוני הבקשה, צריך להחליף את הנתונים הבאים:

‫PROJECT_ID: חובה. מזהה הפרויקט שלכם מופיע בהגדרות IAM. Google Cloud
‫REGION: חובה. אזור Compute Engine.
‫TEMPLATE_VERSION: חובה. מציינים latest לגרסה העדכנית ביותר של התבנית, או את התאריך של גרסה ספציפית, לדוגמה, 2023-03-17_v0.1.0-beta (אפשר להיכנס לכתובת gs://dataproc-templates-binaries או להריץ את הפקודה gcloud storage ls gs://dataproc-templates-binaries כדי לראות רשימה של גרסאות התבניות הזמינות).
‫CLOUD_STORAGE_PATH: חובה. נתיב של Cloud Storage כמקור.
דוגמה: gs://dataproc-templates/hive_to_cloud_storage_output"
‫FORMAT: חובה. פורמט נתוני הקלט. אפשרויות: avro, parquet, csv, או json. הערה: אם avro, צריך להוסיף את file:///usr/lib/spark/connector/spark-avro.jar לדגל jars של ה-CLI של gcloud או לשדה API.
דוגמה (הקידומת file:// מתייחסת לקובץ jar של Serverless for Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... other jars]
‫DATASET: חובה. מערך הנתונים של היעד ב-BigQuery.
‫TABLE: חובה. טבלה ב-BigQuery.
‫TEMP_BUCKET: חובה. קטגוריה זמנית של Cloud Storage שמשמשת לאחסון נתונים במחסן ביניים לפני הטעינה ל-BigQuery.
‫SUBNET: אופציונלי. אם לא מציינים רשת משנה, המערכת בוחרת את רשת המשנה באזור שצוין ברשת default.
דוגמה: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
‫TEMPVIEW ו-SQL_QUERY: אופציונליים. אפשר להשתמש בשני הפרמטרים האופציונליים האלה כדי להחיל טרנספורמציה של Spark SQL בזמן טעינת הנתונים ל-BigQuery. ‫TEMPVIEW הוא שם התצוגה הזמנית, ו-SQL_QUERY הוא הצהרת השאילתה. השם של TEMPVIEW חייב להיות זהה לשם הטבלה ב-SQL_QUERY.
‫SERVICE_ACCOUNT: אופציונלי. אם לא תציינו חשבון שירות, המערכת תשתמש בחשבון השירות שמוגדר כברירת מחדל ב-Compute Engine.
‫PROPERTY ו-PROPERTY_VALUE: אופציונליים. רשימה מופרדת בפסיקים של זוגות מאפייני Spark=value.
‫LABEL ו-LABEL_VALUE: אופציונליים. רשימה מופרדת בפסיקים של זוגות label=value.
‫LOG_LEVEL: אופציונלי. רמת הרישום ביומן. יכול להיות אחד מהערכים הבאים: ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE או WARN. ברירת מחדל: INFO.
‫KMS_KEY: אופציונלי. המפתח של Cloud Key Management Service שבו יש להשתמש להצפנה. אם לא מציינים מפתח, הנתונים מוצפנים באחסון באמצעות Google-owned and Google-managed encryption key.
דוגמה: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

ה-method של ה-HTTP וכתובת ה-URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches

תוכן בקשת JSON:


{
  "environmentConfig":{
    "executionConfig":{
      "subnetworkUri":"SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch":{
    "mainClass":"com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args":[
      "--template", "GCSTOBIGQUERY",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","gcs.bigquery.input.location=CLOUD_STORAGE_PATH",
      "--templateProperty","gcs.bigquery.input.format=FORMAT",
      "--templateProperty","gcs.bigquery.output.dataset=DATASET",
      "--templateProperty","gcs.bigquery.output.table=TABLE",
      "--templateProperty","gcs.bigquery.temp.bucket.name=TEMP_BUCKET",
      "--templateProperty","gcs.bigquery.temp.table=TEMPVIEW",
      "--templateProperty","gcs.bigquery.temp.query=SQL_QUERY"
    ],
    "jarFileUris":[
      "file:///usr/lib/spark/connector/spark-avro.jar", "gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar"
    ]
  }
}

כדי לשלוח את הבקשה צריך להרחיב אחת מהאפשרויות הבאות:

‫Curl (Linux,‏ macOS או Cloud Shell)

הערה: הפקודה הבאה מבוססת על ההנחה שנכנסתם ל-CLI של gcloud באמצעות חשבון המשתמש שלכם, על ידי הרצת gcloud init או gcloud auth login, או באמצעות Cloud Shell שמחבר אתכם אוטומטית ל-CLI של gcloud. כדי לבדוק איזה חשבון פעיל, אפשר להריץ את הפקודה gcloud auth list.

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"

‎PowerShell (Windows)

הערה: הפקודה הבאה מבוססת על ההנחה שנכנסתם ל-CLI של gcloud באמצעות חשבון המשתמש שלכם, על ידי הרצת gcloud init או gcloud auth login. כדי לבדוק איזה חשבון פעיל, אפשר להריץ את הפקודה gcloud auth list.

שומרים את גוף הבקשה בקובץ בשם request.json ומריצים את הפקודה הבאה:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content

אתם אמורים לקבל תגובת JSON שדומה לזו:


{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}