Panoramica dei modelli di flusso di lavoro Dataproc

L'API WorkflowTemplates di Dataproc offre un meccanismo flessibile e facile da usare per la gestione e l'esecuzione dei flussi di lavoro. Un modello di flusso di lavoro è una configurazione di flusso di lavoro riutilizzabile. Definisce un grafico di job con informazioni sul punto di esecuzione di questi job.

Punti chiave:

Tipi di modelli di flusso di lavoro

Cluster gestito

Un modello di flusso di lavoro può specificare un cluster gestito. Il flusso di lavoro creerà un "effimero" cluster per eseguire i job del flusso di lavoro, quindi eliminerà il cluster al termine del flusso di lavoro.

Selettore di cluster

Un modello di flusso di lavoro può specificare un cluster esistente su cui eseguire i job del flusso di lavoro specificando una o più etichette utente precedentemente associate al cluster. Il flusso di lavoro verrà eseguito su un cluster che corrisponde a tutte le etichette. Se più cluster corrispondono a tutte le etichette, Dataproc seleziona il cluster con la massima quantità di memoria YARN disponibile per eseguire tutti i job del flusso di lavoro. Al termine del flusso di lavoro, Dataproc non elimina il cluster selezionato. Per ulteriori informazioni, consulta la pagina Utilizzare i selettori di cluster con i flussi di lavoro.

Con parametri

Se esegui un modello di flusso di lavoro più volte con valori diversi, utilizza i parametri per evitare di modificare il modello di flusso di lavoro per ogni esecuzione:

  1. Definisci i parametri nel modello, quindi

  2. Passa valori diversi per i parametri per ogni esecuzione.

Per ulteriori informazioni, consulta la pagina Parametrizzazione dei modelli di flusso di lavoro.

In linea

È possibile creare istanze dei flussi di lavoro in linea utilizzando il comando gcloud con i file YAML dei modelli di flusso di lavoro o chiamando l'API Dataproc InstantiateInline (vedi Utilizzo dei flussi di lavoro Dataproc in linea). I flussi di lavoro in linea non creano né modificano le risorse dei modelli di flusso di lavoro.

Casi d'uso dei modelli di flusso di lavoro

  • Automazione di attività ripetitive. I flussi di lavoro incapsulano le configurazioni e i job dei cluster utilizzati di frequente.

  • Modello di interazione API transazionale fire-and-forget. I modelli di flusso di lavoro sostituiscono i passaggi coinvolti in un flusso tipico, tra cui:

    1. Creazione del cluster
    2. Invio dei job
    3. Polling
    4. Eliminazione del cluster

    I modelli di flusso di lavoro utilizzano un singolo token per monitorare l'avanzamento dalla creazione all'eliminazione del cluster e automatizzare la gestione e il ripristino degli errori. Semplificano inoltre l' integrazione di Dataproc con altri strumenti, come le funzioni di Cloud Run e Cloud Composer.

  • Supporto per cluster effimeri e a lunga durata. Una complessità comune associata all'esecuzione di Apache Hadoop è la regolazione e il dimensionamento corretto dei cluster. I cluster effimeri (gestiti) sono più facili da configurare perché eseguono un singolo carico di lavoro. I selettori di cluster possono essere utilizzati con cluster a lunga durata per eseguire ripetutamente lo stesso carico di lavoro senza incorrere nel costo ammortizzato della creazione ed eliminazione dei cluster.

  • Sicurezza IAM granulare. La creazione di cluster Dataproc e l'invio di job richiedono autorizzazioni IAM all-or-nothing. I modelli di flusso di lavoro utilizzano un'autorizzazione per modello workflowTemplates.instantiate e non dipendono dalle autorizzazioni di cluster o job.