Comprendere i concetti chiave di Dataproc

Questo documento spiega i concetti chiave, i blocchi di base fondamentali, le funzionalità principali e i vantaggi di Dataproc. La comprensione di questi concetti fondamentali ti aiuta a utilizzare Dataproc in modo efficace per le attività di elaborazione dei dati.

Il modello basato su cluster

Questo è il modo standard e incentrato sull'infrastruttura di utilizzare Dataproc. Ti offre il controllo completo su un insieme dedicato di macchine virtuali per le attività di elaborazione dei dati.

  • Cluster: un cluster è il tuo motore di elaborazione dei dati personale, costituito da Google Cloud macchine virtuali. Puoi creare un cluster per eseguire framework open source come Apache Spark e Apache Hadoop. Hai il controllo completo sulle dimensioni del cluster, sui tipi di macchine e sulla configurazione.
  • Job: un job è un'attività specifica, ad esempio uno script PySpark o una query Hadoop. Anziché eseguire un job direttamente su un cluster, lo invii al servizio Dataproc, che gestisce l'esecuzione del job per te. Puoi inviare più job al cluster.
  • Modelli di workflow: un modello di workflow è una definizione riutilizzabile che orchestra una serie di job (un workflow). Può definire le dipendenze tra i job, ad esempio per eseguire un job di machine learning solo dopo il completamento di un job di pulizia dei dati. Il workflow basato su modello può essere eseguito su un cluster esistente o su un cluster temporaneo (effimero) che viene creato per eseguire il workflow e poi eliminato al termine del workflow. Puoi utilizzare il modello per eseguire il workflow definito ogni volta che è necessario.
  • Policy di scalabilità automatica: una policy di scalabilità automatica contiene regole che definisci per aggiungere o rimuovere macchine worker da un cluster in base al carico di lavoro del cluster al fine di ottimizzare dinamicamente il costo e le prestazioni del cluster.

Il modello serverless

Serverless per Apache Spark è il modello Dataproc moderno e di esecuzione automatizzata. Consente di eseguire job senza dover eseguire il provisioning, la gestione o la scalabilità dell'infrastruttura sottostante: Serverless per Apache Spark gestisce i dettagli per te.

  • Batch: un batch (chiamato anche carico di lavoro batch) è l'equivalente serverless di un job Dataproc. Invii il codice, ad esempio un job Spark, al servizio. Serverless per Apache Spark esegue il provisioning delle risorse necessarie on demand, esegue il job e poi le elimina. Non crei o gestisci risorse di cluster o job; il servizio fa il lavoro per te.
  • Sessioni interattive: le sessioni interattive forniscono un ambiente live on demand per l'analisi esploratoria dei dati, in genere all'interno di un notebook Jupyter. Le sessioni interattive offrono la comodità di un workspace serverless temporaneo che puoi utilizzare per eseguire query e sviluppare codice senza dover eseguire il provisioning e la gestione delle risorse di cluster e notebook.
  • Modelli di sessione: un modello di sessione è una configurazione riutilizzabile che puoi utilizzare per definire le sessioni interattive. Il modello contiene le impostazioni della sessione, come le proprietà Spark e le dipendenze delle librerie. Utilizzi il modello per creare ambienti di sessione interattiva per lo sviluppo, in genere all'interno di un notebook Jupyter.

Servizi Metastore

Dataproc fornisce servizi gestiti per la gestione dei metadati, ovvero i dati relativi ai tuoi dati.

  • Metastore: un metastore funge da catalogo centrale per lo schema dei dati, ad esempio nomi di tabelle e colonne e tipi di dati. Un metastore consente a diversi servizi, cluster e job di comprendere la struttura dei dati. In genere, il catalogo viene archiviato in Cloud Storage.
  • Federazione: la federazione dei metadati è una funzionalità avanzata che consente di accedere ai dati e di eseguirne query da più metastore come se si accedesse a un singolo metastore unificato.

Ambienti di sviluppo e notebook

I notebook e gli IDE Dataproc si collegano agli ambienti di sviluppo integrati in cui puoi scrivere ed eseguire il codice.

  • BigQuery Studio & Workbench: si tratta di ambienti di analisi e notebook unificati. Consentono di scrivere codice (ad esempio in un notebook Jupyter) e di utilizzare un cluster Dataproc o una sessione serverless come motore di backend potente per eseguire il codice su set di dati di grandi dimensioni.
  • Plug-in JupyterLab di Dataproc: questa estensione JupyterLab ufficiale funge da pannello di controllo per Dataproc all'interno dell'ambiente del notebook. Semplifica il workflow consentendoti di sfogliare, creare, e gestire i cluster e inviare job senza dover uscire dall' interfaccia Jupyter. Scopri di più
  • Connettore Python Spark Connect di Dataproc: questa libreria Python semplifica la procedura di utilizzo di Spark Connect con Dataproc. Gestisce l'autenticazione e la configurazione degli endpoint, semplificando notevolmente la connessione dell'ambiente Python locale, ad esempio un notebook o un IDE, a un cluster Dataproc remoto per lo sviluppo interattivo. Scopri di più

Personalizzazione dell'ambiente

Dataproc offre strumenti e componenti per personalizzare l'ambiente in base a esigenze specifiche. La sezione Utilità della Google Cloud console contiene strumenti utili per personalizzare l'ambiente Dataproc.