Questa pagina descrive come eseguire una pipeline in Cloud Data Fusion su un cluster Managed Service per Apache Spark esistente.
Per impostazione predefinita, Cloud Data Fusion crea cluster temporanei per ogni pipeline: crea un cluster all'inizio dell'esecuzione della pipeline e poi lo elimina al termine dell'esecuzione. Anche se questo comportamento consente di risparmiare sui costi garantendo che le risorse vengano create solo quando necessario, il comportamento predefinito potrebbe non essere auspicabile nei seguenti scenari:
Se il tempo necessario per creare un nuovo cluster per ogni pipeline è proibitivo per il tuo caso d'uso.
Se la tua organizzazione richiede che la creazione dei cluster sia gestita centralmente, ad esempio quando vuoi applicare determinate policy a tutti i cluster Managed Service per Apache Spark.
In questi scenari, esegui invece le pipeline su un cluster esistente seguendo questi passaggi.
Prima di iniziare
Sono necessari i seguenti elementi:
Un'istanza Cloud Data Fusion.
Un cluster Managed Service per Apache Spark esistente.
Se esegui le pipeline in Cloud Data Fusion versione 6.2, utilizza un' immagine Managed Service per Apache Spark precedente che viene eseguita con Hadoop 2.x (ad esempio 1.5-debian10) o esegui l'upgrade all' ultima versione di Cloud Data Fusion.
Connettersi al cluster esistente
Nelle versioni 6.2.1 e successive di Cloud Data Fusion, puoi connetterti a un cluster Managed Service per Apache Spark esistente quando crei un nuovo profilo Compute Engine.
Vai all'istanza:
Nella Google Cloud console, vai alla pagina Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Fai clic su Amministrazione di sistema.
Fai clic sulla scheda Configurazione.
Fai clic su Profili di calcolo di sistema.
Fai clic su Crea nuovo profilo. Si apre una pagina di provisioner.
Fai clic su Managed Service per Apache Spark esistente.
Inserisci le informazioni sul profilo, sul cluster e sul monitoraggio.
Fai clic su Crea.
Configurare la pipeline per utilizzare il profilo personalizzato
Vai all'istanza:
Nella Google Cloud console, vai alla pagina Cloud Data Fusion.
Per aprire l'istanza in Cloud Data Fusion Studio, fai clic su Istanze e poi su Visualizza istanza.
Vai alla pipeline nella pagina Studio.
Fai clic su Configura.
Fai clic su Configurazione di calcolo.
Fai clic sul profilo che hai creato.
Figura 1: fai clic sul profilo personalizzato Esegui la pipeline. Viene eseguita sul cluster Managed Service per Apache Spark esistente.
Passaggi successivi
- Scopri di più sulla configurazione dei cluster.
- Risolvi i problemi relativi all'eliminazione dei cluster.