"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inviare un workload batch Apache Spark

Scopri come inviare un workload batch sull'infrastruttura di calcolo di Managed Service for Apache Spark, che scala le risorse in base alle esigenze.

Prima di iniziare

Configura il progetto e, se necessario, concedi i ruoli Identity and Access Management.

Configura il progetto

Esegui uno o più dei seguenti passaggi in base alle esigenze:

Accedi al tuo account Google Cloud . Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei carichi di lavoro.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the serviceusage.services.enable permission. If you created the project, then you likely already have this permission through the Owner role (roles/owner). Otherwise, you can get this permission through the Service Usage Admin role (roles/serviceusage.serviceUsageAdmin). Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

Enable the API

Concedi ruoli IAM, se necessario

Per eseguire gli esempi riportati in questa pagina sono necessari determinati ruoli IAM. A seconda delle norme dell'organizzazione, questi ruoli potrebbero essere già stati concessi. Per controllare le concessioni dei ruoli, consulta Devi concedere i ruoli?.

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Ruoli utente

Per ottenere le autorizzazioni necessarie per inviare un carico di lavoro batch serverless, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Dataproc Editor (roles/dataproc.editor) sul progetto
Service Account User (roles/iam.serviceAccountUser) sul account di servizio predefinito Compute Engine

Ruolo service account

Per assicurarti che il account di servizio predefinito di Compute Engine disponga delle autorizzazioni necessarie per inviare un carico di lavoro batch serverless, chiedi all'amministratore di concedere il ruolo IAM Dataproc Worker (roles/dataproc.worker) al account di servizio predefinito di Compute Engine sul progetto.

Invia un carico di lavoro batch Spark

Puoi utilizzare la console Google Cloud , Google Cloud CLI o l'API REST per creare e inviare un carico di lavoro batch di Managed Service for Apache Spark.

Console

Nella console Google Cloud , vai a Managed Service for Apache Spark Batches.
Fai clic su Crea.
Invia un carico di lavoro batch Spark che calcola il valore approssimativo di pi greco selezionando e compilando i seguenti campi:
- Batch Info:
  - ID batch: specifica un ID per il carico di lavoro batch. Questo valore deve contenere da 4 a 63 caratteri minuscoli. I caratteri validi sono /[a-z][0-9]-/.
  - Regione: seleziona una regione in cui verrà eseguito il workload.
- Container:
  - Tipo di batch: Spark.
  - Versione runtime: conferma o seleziona la versione runtime 3.0.
  - Classe principale:
```
org.apache.spark.examples.SparkPi
```
  - File JAR (questo file è preinstallato nell'ambiente di esecuzione di Managed Service for Apache Spark).
```
file:///usr/lib/spark/examples/jars/spark-examples.jar
```
  - Argomenti: 1000.
- Execution Configuration (Configurazione dell'esecuzione): seleziona Service Account (Account di servizio). Per impostazione predefinita, il batch verrà eseguito utilizzando l'account di servizio predefinito di Compute Engine. Puoi specificare un account di servizio personalizzato. Il account di servizio predefinito o personalizzato deve avere il ruolo Worker Dataproc.
- Configurazione di rete:seleziona una subnet nella regione della sessione. Managed Service for Apache Spark abilita l'accesso privato Google (PGA) sulla subnet specificata. Per i requisiti di connettività di rete, consulta la sezione Configurazione di rete di Managed Service for Apache Spark.
- Proprietà:inserisci Key (nome proprietà) e Value delle proprietà Spark supportate da impostare nel carico di lavoro batch Spark. Nota: a differenza delle proprietà del cluster di Managed Service for Apache Spark, le proprietà del workload Managed Service for Apache Spark non includono un prefisso spark:.
- Altre opzioni:
  - Puoi configurare il carico di lavoro batch per utilizzare un Hive Metastore esterno autogestito.
  - Puoi utilizzare un server di cronologia permanente (PHS). Il PHS deve trovarsi nella regione in cui esegui i workload batch.
Fai clic su Invia per eseguire il carico di lavoro batch Spark.

gcloud

Per inviare un carico di lavoro batch di Spark per calcolare il valore approssimativo di pi, esegui il seguente comando gcloud CLI gcloud dataproc batches submit spark localmente in una finestra del terminale o in Cloud Shell.

gcloud dataproc batches submit spark \
    --region=REGION \
    --version=3.0 \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    -- 1000

Sostituisci quanto segue:

REGION: Specifica la regione in cui verrà eseguito il workload.
Altre opzioni: puoi aggiungere flag gcloud dataproc batches submit spark per specificare altre opzioni del workload e proprietà Spark.
- --jars: Il file JAR di esempio è preinstallato nell'ambiente di esecuzione Spark. L'argomento del comando 1000 passato al workload SparkPi specifica 1000 iterazioni della logica di stima di pi greco (gli argomenti di input del workload sono inclusi dopo "-- ").
- --subnet: Puoi aggiungere questo flag per specificare il nome di una subnet nella regione della sessione. Se non specifichi una subnet, Managed Service for Apache Spark seleziona la subnet default nella regione della sessione. Managed Service for Apache Spark abilita l'accesso privato Google (PGA) sulla subnet. Per i requisiti di connettività di rete, vedi Configurazione di rete di Managed Service for Apache Spark.
- --tags: Puoi aggiungere questo flag per specificare i tag di rete per il controllo del traffico. Utilizza i tag di rete per limitare la connettività. In produzione, la prassi consigliata è limitare le regole firewall agli indirizzi IP utilizzati dai carichi di lavoro Spark.
- --properties: Puoi aggiungere questo flag per inserire proprietà Spark supportate da utilizzare per il carico di lavoro batch Spark.
- --deps-bucket: Puoi aggiungere questo flag per specificare un bucket Cloud Storage in cui Managed Service for Apache Spark caricherà le dipendenze del workload. Il prefisso URI gs:// del bucket non è obbligatorio; puoi specificare il percorso o il nome del bucket. Managed Service for Apache Spark carica i file locali in una cartella /dependencies del bucket prima di eseguire il workload batch. Nota: questo flag è obbligatorio se il tuo workload batch fa riferimento a file sul tuo computer locale.
- --ttl: puoi aggiungere il flag --ttl per specificare la durata del batch. Quando il carico di lavoro supera questa durata, viene terminato in modo incondizionato senza attendere il completamento del lavoro in corso. Specifica la durata utilizzando un suffisso s, m, h o d (secondi, minuti, ore o giorni). Il valore minimo è 10 minuti (10m) e il valore massimo è 14 giorni (14d).
  - Batch di runtime 1.1 o 2.0: se --ttl non è specificato per un workload batch di runtime 1.1 o 2.0, il workload può essere eseguito finché non viene chiuso naturalmente (o per sempre se non viene chiuso).
  - Batch di runtime 2.1+: se --ttl non è specificato per un carico di lavoro batch di runtime 2.1 o versioni successive, il valore predefinito è 4h.
- --service-account: puoi specificare un service account da utilizzare per eseguire il workload. Se non specifichi un service account, il workload viene eseguito con l'account di servizio predefinito di Compute Engine. Il account di servizio deve avere il ruolo Worker Dataproc.
- Hive Metastore: il seguente comando configura un carico di lavoro batch per l'utilizzo di un Hive Metastore autogestito utilizzando una configurazione Spark standard.
```
gcloud dataproc batches submit spark\
    --properties=spark.sql.catalogImplementation=hive,spark.hive.metastore.uris=METASTORE_URI,spark.hive.metastore.warehouse.dir=WAREHOUSE_DIR> \
    other args ...
        
```
- Server di cronologia permanente:
  1. Il seguente comando crea un PHS su un cluster Managed Service for Apache Spark a nodo singolo. Il PHS deve trovarsi nella regione in cui esegui i carichi di lavoro batch e deve esistere il bucket-name Cloud Storage.
```
gcloud dataproc clusters create PHS_CLUSTER_NAME \
    --region=REGION \
    --single-node \
    --enable-component-gateway \
    --properties=spark:spark.history.fs.logDirectory=gs://bucket-name/phs/*/spark-job-history
             
```
  2. Invia un carico di lavoro batch, specificando il server di cronologia permanente in esecuzione.
```
gcloud dataproc batches submit spark \
    --region=REGION \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    --history-server-cluster=projects/project-id/regions/region/clusters/PHS-cluster-name \
    -- 1000
              
```
- Versione del runtime: Utilizza il flag --version per specificare la versione del runtime di Managed Service for Apache Spark per il workload.
```
gcloud dataproc batches submit spark \
    --region=REGION \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    --class=org.apache.spark.examples.SparkPi \
    --version=VERSION
    -- 1000
            
```

API

Questa sezione mostra come creare un workload batch per calcolare il valore approssimativo di pi utilizzando Managed Service for Apache Spark batches.create`

Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:

project-id: Un ID progetto Google Cloud .
region: una regione di Compute Engine in cui Managed Service for Apache Spark eseguirà il workload.

Note:

PROJECT_ID: l'ID progetto Google Cloud . Gli ID progetto sono elencati nella sezione Informazioni sul progetto della dashboard della console Google Cloud .
REGION: la regione della sessione.

Metodo HTTP e URL:

POST https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches

Corpo JSON della richiesta:

{
  "sparkBatch":{
    "args":[
      "1000"
    ],
    "runtimeConfig": {
      "version": "2.3",
    },
    "jarFileUris":[
      "file:///usr/lib/spark/examples/jars/spark-examples.jar"
    ],
    "mainClass":"org.apache.spark.examples.SparkPi"
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches"

PowerShell (Windows)

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
"name":"projects/project-id/locations/region/batches/batch-id",
  "uuid":",uuid",
  "createTime":"2021-07-22T17:03:46.393957Z",
  "sparkBatch":{
    "mainClass":"org.apache.spark.examples.SparkPi",
    "args":[
      "1000"
    ],
    "jarFileUris":[
      "file:///usr/lib/spark/examples/jars/spark-examples.jar"
    ]
  },
  "runtimeInfo":{
    "outputUri":"gs://dataproc-.../driveroutput"
  },
  "state":"SUCCEEDED",
  "stateTime":"2021-07-22T17:06:30.301789Z",
  "creator":"account-email-address",
  "runtimeConfig":{
    "version":"2.3",
    "properties":{
      "spark:spark.executor.instances":"2",
      "spark:spark.driver.cores":"2",
      "spark:spark.executor.cores":"2",
      "spark:spark.app.name":"projects/project-id/locations/region/batches/batch-id"
    }
  },
  "environmentConfig":{
    "peripheralsConfig":{
      "sparkHistoryServerConfig":{
      }
    }
  },
  "operation":"projects/project-id/regions/region/operation-id"
}

Stima i costi del workload

I carichi di lavoro Managed Service for Apache Spark utilizzano le risorse di unità di calcolo dei dati (DCU) e di archiviazione shuffle. Per un esempio che restituisce UsageMetrics di Managed Service for Apache Spark per stimare il consumo di risorse e i costi del workload, consulta Prezzi di Managed Service for Apache Spark.

Passaggi successivi

Scopri di più su:

Gestire il ciclo di vita del carico di lavoro dei dati in VS Code utilizzando Google Cloud Data Agent Kit
Crea pipeline di dati con Data Agent Kit
Eseguire il codice PySpark nei notebook di BigQuery Studio
Quote di Managed Service for Apache Spark
Proprietà Spark

Inviare un workload batch Apache Spark Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prima di iniziare

Configura il progetto

Concedi ruoli IAM, se necessario

Ruoli utente

Ruolo service account

Invia un carico di lavoro batch Spark

Console

gcloud

API

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Stima i costi del workload

Passaggi successivi

Inviare un workload batch Apache Spark