"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Best practice di Managed Service per Apache Spark per la produzione

Questo documento illustra le best practice di Managed Service for Apache Spark che possono aiutarti a eseguire job di elaborazione dei dati affidabili, efficienti e approfonditi sui cluster Managed Service for Apache Spark negli ambienti di produzione.

Specificare le versioni delle immagini del cluster

Managed Service for Apache Spark utilizza le versioni delle immagini per raggruppare il sistema operativo, i componenti big data e, i Google Cloud connettori in un pacchetto di cui viene eseguito il deployment in un cluster. Se non specifichi una versione dell'immagine durante la creazione di un cluster, Managed Service for Apache Spark utilizza per impostazione predefinita la versione dell'immagine stabile più recente.

Per gli ambienti di produzione, associa il cluster a una versione dell'immagine major.minor di Managed Service for Apache Spark specifica, come mostrato nel seguente comando gcloud CLI.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=region \
    --image-version=2.0

Dataproc risolve la versione major.minor nella versione secondaria più recente (2.0 viene risolta in 2.0.x). Nota: se devi fare affidamento su una versione secondaria specifica per il tuo cluster, puoi specificarla, ad esempio --image-version=2.0.x. Per saperne di più, consulta Come funziona il controllo delle versioni per maggiori informazioni.

Versioni delle immagini di anteprima di Managed Service for Apache Spark

Le nuove versioni secondarie delle immagini di Managed Service for Apache Spark sono disponibili in una versione preview prima della release nella traccia della versione dell'immagine secondaria standard. Utilizza un'immagine di anteprima per testare e convalidare i job rispetto a una nuova versione dell'immagine secondaria prima di adottare la versione dell'immagine secondaria standard in produzione. Per saperne di più, consulta Controllo delle versioni di Managed Service for Apache Spark.

Utilizzare immagini personalizzate, se necessario

Se devi aggiungere dipendenze al cluster, ad esempio librerie Python native o software di protezione da virus o rafforzamento della sicurezza, crea un'immagine personalizzata dall'immagine più recente nella traccia della versione dell'immagine secondaria di destinazione. Questa pratica ti consente di soddisfare i requisiti di dipendenza quando crei cluster utilizzando l'immagine personalizzata. Quando ricompili l'immagine personalizzata per aggiornare i requisiti di dipendenza, utilizza la versione dell'immagine secondaria più recente disponibile nella traccia dell'immagine secondaria.

Inviare job a Managed Service for Apache Spark

Invia job a Managed Service for Apache Spark con una jobs.submit utilizzando gcloud CLI o la Google Cloud console. Imposta le autorizzazioni di job e cluster concedendo i ruoli di Managed Service for Apache Spark. Utilizza i ruoli personalizzati per separare l'accesso al cluster dalle autorizzazioni di invio dei job.

Vantaggi dell'invio di job a Managed Service for Apache Spark:

Non sono necessarie impostazioni di rete complicate: l'API è ampiamente raggiungibile
Facile gestione di ruoli e autorizzazioni IAM
Monitoraggio semplice dello stato dei job: nessun metadato dei job di Managed Service for Apache Spark per complicare i risultati.

In produzione, esegui i job che dipendono solo dalle dipendenze a livello di cluster a una versione dell'immagine secondaria fissa, ad esempio --image-version=2.0). Raggruppa le dipendenze con i job quando vengono inviati. L'invio di un uber jar a Spark o MapReduce è un modo comune per farlo.

Esempio: se un jar di job dipende da args4j e spark-sql, con args4j specifico per il job e spark-sql una dipendenza a livello di cluster, raggruppa args4j nell'uber jar del job.

Controllare le posizioni delle azioni di inizializzazione

Le azioni di inizializzazione ti consentono di eseguire automaticamente script o installare componenti quando crei un cluster Managed Service for Apache Spark (consulta il repository GitHub dataproc-initialization-actions per le azioni di inizializzazione comuni di Managed Service for Apache Spark). Quando utilizzi le azioni di inizializzazione del cluster in un ambiente di produzione, copia gli script di inizializzazione in Cloud Storage anziché recuperarli da un repository pubblico. Questa pratica evita l'esecuzione di script di inizializzazione soggetti a modifiche da parte di altri.

Monitorare le note di release di Managed Service for Apache Spark

Managed Service for Apache Spark rilascia regolarmente nuove versioni di immagini secondarie. Visualizza o iscriviti alle note di release di Managed Service for Apache Spark per essere a conoscenza delle ultime release delle versioni delle immagini di Managed Service for Apache Spark e di altri annunci, modifiche e correzioni.

Visualizzare il bucket di gestione temporanea per indagare sugli errori

Esamina il bucket di gestione temporanea del cluster per indagare sui messaggi di errore di cluster e job. In genere, la posizione di Cloud Storage del bucket di gestione temporanea viene visualizzata nei messaggi di errore, come mostrato nel testo in grassetto nel seguente messaggio di errore di esempio:
```
ERROR:
(gcloud.dataproc.clusters.create) Operation ... failed:
...
- Initialization action failed. Failed action ... see output in:
gs://dataproc-<BUCKETID>-us-central1/google-cloud-dataproc-metainfo/CLUSTERID/<CLUSTER_ID>\dataproc-initialization-script-0_output
 
```

Utilizza gcloud CLI per visualizzare i contenuti del bucket di gestione temporanea:

gcloud storage cat gs://STAGING_BUCKET

Esempio di output:

+ readonly RANGER_VERSION=1.2.0
... Ranger admin password not set. Please use metadata flag - default-password

Assistenza

Google Cloud supporta i workload OSS di produzione e ti aiuta a rispettare gli SLA aziendali tramite livelli di assistenza. Inoltre, Google Cloud i servizi di consulenza possono fornire indicazioni sulle best practice per i deployment di produzione del tuo team.

Per ulteriori informazioni

Leggi la guida alle best practice di Managed Service for Apache Spark sul Google Cloud blog.
Guarda Democratizing Managed Service for Apache Spark su YouTube.