Questa pagina descrive come riutilizzare i cluster di Managed Service for Apache Spark per le esecuzioni delle pipeline in Cloud Data Fusion. Per ulteriori informazioni, consulta Quando riutilizzare i cluster ed Eseguire una pipeline su un cluster di Managed Service for Apache Spark esistente.
Prima di iniziare
- Devi avere un'istanza Cloud Data Fusion nella versione 6.5.0 o successive.
Attivare il riutilizzo dei cluster
Puoi riutilizzare i cluster in un nuovo profilo di calcolo o in uno utilizzato in una pipeline di cui è stato eseguito il deployment.
Attivare il riutilizzo dei cluster in un nuovo profilo
Vai all'istanza:
Nella Google Cloud console, vai alla pagina Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Fai clic su Amministratore di sistema > Configurazione > Profili di calcolo di sistema.
Fai clic su Crea nuovo profilo.
Scegli il provisioning Managed Service for Apache Spark.
Nella finestra Crea un profilo per Managed Service for Apache Spark, inserisci i dettagli del cluster:
- Nei campi Etichetta profilo e Nome profilo, inserisci un nome per identificare il profilo, ad esempio
execution_compute-profile. - Nel campo Descrizione, descrivi lo scopo del profilo, ad esempio
Profile used for pipeline execution. - Nel campo Tempo di inattività massimo, inserisci un valore. Per ulteriori informazioni, consulta Impostare il tempo di inattività massimo.
- Imposta il campo Salta eliminazione cluster su
True. Per ulteriori informazioni, consulta Quando riutilizzare i cluster. - (Facoltativo) Configura altri campi facoltativi.
- Fai clic su Crea.
- Nei campi Etichetta profilo e Nome profilo, inserisci un nome per identificare il profilo, ad esempio
Attivare il riutilizzo dei cluster in una pipeline di cui è stato eseguito il deployment
Vai all'istanza:
Nella Google Cloud console, vai alla pagina Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Fai clic su Elenco.
Fai clic sulla scheda Di cui è stato eseguito il deployment e poi sul nome di una pipeline. La pipeline di cui è stato eseguito il deployment si apre nella pagina Studio dell'interfaccia web di Cloud Data Fusion.
Fai clic su Configura.
Nella finestra Configurazione di calcolo, vai al profilo scelto e fai clic su Personalizza.
Nella finestra che si apre, inserisci i seguenti valori:
- Nel campo Tempo di inattività massimo, inserisci un valore. Per ulteriori informazioni, consulta Impostare il tempo di inattività massimo.
- Imposta Salta eliminazione cluster su
True. Per ulteriori informazioni, consulta Quando riutilizzare i cluster.
Fai clic su Fine.
Passaggi successivi
- Scopri di più sulla configurazione dei cluster.
- Risolvi i problemi relativi all'eliminazione dei cluster.