"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modello da Cloud Storage a Cloud Storage

Utilizza il modello Managed Service for Apache Spark Cloud Storage to Cloud Storage per estrarre i dati da Cloud Storage a Cloud Storage.

Utilizzare il modello

Esegui il modello utilizzando gcloud CLI o l'API Managed Service for Apache Spark.

gcloud

Prima di utilizzare i dati dei comandi riportati di seguito, effettua le seguenti sostituzioni:

PROJECT_ID: obbligatorio. Il tuo ID progetto Google Cloud elencato nelle impostazioni IAM.
REGION: obbligatorio. Regione Compute Engine.
SUBNET: (Facoltativo) Se non viene specificata una subnet, viene selezionata la subnet nella REGIONE specificata nella rete default.
Esempio: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
TEMPLATE_VERSION: obbligatorio. Specifica latest per l'ultima versione del modello o la data di una versione specifica, ad esempio 2023-03-17_v0.1.0-beta (visita gs://templates-binaries o esegui gcloud storage ls gs://templates-binaries per elencare le versioni del modello disponibili).
CLOUD_STORAGE_INPUT_PATH: obbligatorio. Percorso Cloud Storage da cui verranno letti i dati di input.
Esempio: gs://example-bucket/example-folder/
FORMAT: obbligatorio. Formato dei dati di input. Opzioni: avro, parquet o orc. Nota:se avro, devi aggiungere "file:///usr/lib/spark/connector/spark-avro.jar" al flag gcloud CLI o al campo API jars.
Esempio (il prefisso file:// fa riferimento a un file JAR di Managed Service for Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [ ... other jars]
CLOUD_STORAGE_OUTPUT_PATH: Obbligatorio. Percorso Cloud Storage in cui verranno archiviati gli output.
Esempio: gs://example-bucket/example-folder/
OUTPUT_FILE_FORMAT: Obbligatorio. Formato dei dati di output. Opzioni: avro, csv parquet, json o orc. Nota:se avro, devi aggiungere "file:///usr/lib/spark/connector/spark-avro.jar" al flag gcloud CLI o al campo API jars.
Esempio (il prefisso file:// fa riferimento a un file JAR di Managed Service for Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [ ... other jars]
MODE: Obbligatorio. Modalità di scrittura per l'output Cloud Storage. Opzioni: Append, Overwrite, Ignore o ErrorIfExists.
TEMP_TABLE e TEMP_QUERY: facoltativo. Puoi utilizzare questi due parametri facoltativi per applicare una trasformazione Spark SQL durante il caricamento dei dati in Cloud Storage. TEMP_TABLE è il nome della visualizzazione temporanea e TEMP_QUERY è l'istruzione della query. TEMP_TABLE e il nome della tabella in TEMP_QUERY devono corrispondere.
SERVICE_ACCOUNT: (Facoltativo) Se non viene specificato, viene utilizzato l'account di servizio Compute Engine predefinito.
PROPERTY e PROPERTY_VALUE: Facoltativo. Elenco separato da virgole di coppie proprietà Spark=value.
LABEL e LABEL_VALUE: Facoltativo. Elenco separato da virgole di coppie label=value.
LOG_LEVEL: (Facoltativo) Livello di logging. Può essere uno dei seguenti valori: ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE o WARN. Valore predefinito: INFO.
KMS_KEY: (Facoltativo) La chiave Cloud Key Management Service da utilizzare per la crittografia. Se non viene specificata una chiave, i dati vengono criptati at-rest utilizzando una Google-owned and Google-managed encryption key.
Esempio: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

Esegui questo comando:

Linux, macOS o Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --version="1.2" \
    --project="PROJECT_ID" \
    --region="REGION" \
    --jars="gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar,file:///usr/lib/spark/connector/spark-avro.jar" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=GCSTOGCS \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty gcs.gcs.input.location="CLOUD_STORAGE_INPUT_PATH" \
    --templateProperty gcs.gcs.input.format="INPUT_FILE_FORMAT" \
    --templateProperty gcs.gcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" \
    --templateProperty gcs.gcs.output.format="OUTPUT_FILE_FORMAT" \
    --templateProperty gcs.gcs.write.mode="MODE" \
    --templateProperty gcs.gcs.temp.table="TEMP_TABLE" \
    --templateProperty gcs.gcs.temp.query="TEMP_QUERY"

Windows (PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --version="1.2" `
    --project="PROJECT_ID" `
    --region="REGION" `
    --jars="gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar,file:///usr/lib/spark/connector/spark-avro.jar" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=GCSTOGCS `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty gcs.gcs.input.location="CLOUD_STORAGE_INPUT_PATH" `
    --templateProperty gcs.gcs.input.format="INPUT_FILE_FORMAT" `
    --templateProperty gcs.gcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" `
    --templateProperty gcs.gcs.output.format="OUTPUT_FILE_FORMAT" `
    --templateProperty gcs.gcs.write.mode="MODE" `
    --templateProperty gcs.gcs.temp.table="TEMP_TABLE" `
    --templateProperty gcs.gcs.temp.query="TEMP_QUERY"

Windows (cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --version="1.2" ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --jars="gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar,file:///usr/lib/spark/connector/spark-avro.jar" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=GCSTOGCS ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty gcs.gcs.input.location="CLOUD_STORAGE_INPUT_PATH" ^
    --templateProperty gcs.gcs.input.format="INPUT_FILE_FORMAT" ^
    --templateProperty gcs.gcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" ^
    --templateProperty gcs.gcs.output.format="OUTPUT_FILE_FORMAT" ^
    --templateProperty gcs.gcs.write.mode="MODE" ^
    --templateProperty gcs.gcs.temp.table="TEMP_TABLE" ^
    --templateProperty gcs.gcs.temp.query="TEMP_QUERY"

REST

Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:

PROJECT_ID: obbligatorio. Il tuo ID progetto Google Cloud elencato nelle impostazioni IAM.
REGION: obbligatorio. Regione Compute Engine.
SUBNET: (Facoltativo) Se non viene specificata una subnet, viene selezionata la subnet nella REGIONE specificata nella rete default.
Esempio: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
TEMPLATE_VERSION: obbligatorio. Specifica latest per l'ultima versione del modello o la data di una versione specifica, ad esempio 2023-03-17_v0.1.0-beta (visita gs://templates-binaries o esegui gcloud storage ls gs://templates-binaries per elencare le versioni del modello disponibili).
CLOUD_STORAGE_INPUT_PATH: obbligatorio. Percorso Cloud Storage da cui verranno letti i dati di input.
Esempio: gs://example-bucket/example-folder/
FORMAT: obbligatorio. Formato dei dati di input. Opzioni: avro, parquet o orc. Nota:se avro, devi aggiungere "file:///usr/lib/spark/connector/spark-avro.jar" al flag gcloud CLI o al campo API jars.
Esempio (il prefisso file:// fa riferimento a un file JAR di Managed Service for Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [ ... other jars]
CLOUD_STORAGE_OUTPUT_PATH: Obbligatorio. Percorso Cloud Storage in cui verranno archiviati gli output.
Esempio: gs://example-bucket/example-folder/
OUTPUT_FILE_FORMAT: Obbligatorio. Formato dei dati di output. Opzioni: avro, csv parquet, json o orc. Nota:se avro, devi aggiungere "file:///usr/lib/spark/connector/spark-avro.jar" al flag gcloud CLI o al campo API jars.
Esempio (il prefisso file:// fa riferimento a un file JAR di Managed Service for Apache Spark):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [ ... other jars]
MODE: Obbligatorio. Modalità di scrittura per l'output Cloud Storage. Opzioni: Append, Overwrite, Ignore o ErrorIfExists.
TEMP_TABLE e TEMP_QUERY: facoltativo. Puoi utilizzare questi due parametri facoltativi per applicare una trasformazione Spark SQL durante il caricamento dei dati in Cloud Storage. TEMP_TABLE è il nome della visualizzazione temporanea e TEMP_QUERY è l'istruzione della query. TEMP_TABLE e il nome della tabella in TEMP_QUERY devono corrispondere.
SERVICE_ACCOUNT: (Facoltativo) Se non viene specificato, viene utilizzato l'account di servizio Compute Engine predefinito.
PROPERTY e PROPERTY_VALUE: Facoltativo. Elenco separato da virgole di coppie proprietà Spark=value.
LABEL e LABEL_VALUE: Facoltativo. Elenco separato da virgole di coppie label=value.
LOG_LEVEL: (Facoltativo) Livello di logging. Può essere uno dei seguenti valori: ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE o WARN. Valore predefinito: INFO.
KMS_KEY: (Facoltativo) La chiave Cloud Key Management Service da utilizzare per la crittografia. Se non viene specificata una chiave, i dati vengono criptati at-rest utilizzando una Google-owned and Google-managed encryption key.
Esempio: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

Metodo HTTP e URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches

Corpo JSON della richiesta:


{
  "environmentConfig":{
    "executionConfig":{
      "subnetworkUri":"SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch": {
    "mainClass": "com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args": [
      "--template","GCSTOGCS",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","gcs.gcs.input.location=CLOUD_STORAGE_INPUT_PATH",
      "--templateProperty","gcs.gcs.input.format=INPUT_FILE_FORMAT",
      "--templateProperty","gcs.gcs.output.location=CLOUD_STORAGE_OUTPUT_PATH",
      "--templateProperty","gcs.gcs.output.format=OUTPUT_FILE_FORMAT",
      "--templateProperty","gcs.gcs.write.mode=MODE",
      "--templateProperty","gcs.gcs.temp.table=TEMP_TABLE",
      "--templateProperty","gcs.gcs.temp.query=TEMP_QUERY"
    ],
    "jarFileUris":[
      "gs://templates-binaries/TEMPLATE_VERSION/java/templates.jar",
      "file:///usr/lib/spark/connector/spark-avro.jar"
    ]
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"

PowerShell (Windows)

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:


{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}