Gestire i profili di calcolo

Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Incapsula tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisico di una pipeline. Un profilo di calcolo specifica un nome del provisioner e le impostazioni di configurazione per quel provisioner.

Ogni profilo di calcolo ha un ambito: sistema o utente. Puoi utilizzare i profili di calcolo di sistema per tutti gli spazi dei nomi sottostanti. I profili di calcolo utente esistono all'interno di uno spazio dei nomi e solo le pipeline in quello spazio dei nomi possono utilizzare i profili di calcolo utente. I profili di calcolo possono essere assegnati alle pipeline in modalità batch. Quando un profilo di calcolo viene assegnato a una pipeline, il provisioner specificato nel profilo verrà utilizzato per creare un cluster in cui verrà eseguita la pipeline.

Ad esempio, un amministratore potrebbe decidere di creare profili di calcolo piccoli, medi e grandi. Configura ogni profilo con le Google Cloud credenziali necessarie per creare ed eliminare i cluster di Managed Service for Apache Spark in quello dell'azienda. Google Cloud

  • Il profilo piccolo è configurato per creare un cluster di 5 nodi.
  • Il profilo medio è configurato per creare un cluster di 20 nodi.
  • Il profilo grande è configurato per creare un cluster di 50 nodi.

L'amministratore assegna il profilo piccolo alle pipeline pianificate per essere eseguite ogni ora su piccole quantità di dati. Assegna il profilo grande alle pipeline pianificate per essere eseguite ogni giorno su una grande quantità di dati.

Profilo di calcolo predefinito

Per impostazione predefinita, Cloud Data Fusion utilizza la scalabilità automatica come profilo di calcolo. Stimare il numero appropriato di worker (nodi) del cluster per un carico di lavoro è difficile e spesso una singola dimensione del cluster per un'intera pipeline non è l'ideale. La scalabilità automatica di Managed Service for Apache Spark offre un meccanismo per automatizzare la gestione delle risorse cluster e consente la scalabilità automatica delle VM worker del cluster. Per ulteriori informazioni, consulta Scalabilità automatica.

Nella pagina Configurazione di calcolo, in cui puoi visualizzare un elenco di profili, è presente una colonna Core totali, che contiene le vCPU massime a cui il profilo può scalare, ad esempio Up to 84.

Profili di calcolo di sistema e utente

Un profilo di calcolo indica quale provisioner utilizzare durante la creazione di un cluster e specifica la configurazione del cluster. Specificano anche la configurazione del provisioner da utilizzare durante la creazione di un cluster.

  • Per creare un profilo di calcolo di sistema, vai alla pagina Amministratore di sistema in Cloud Data Fusion Studio. Questa pagina elenca tutti i profili di calcolo di sistema e ti consente di crearne di nuovi.
  • Per creare un profilo di calcolo utente, vai alla pagina Amministrazione dello spazio dei nomi in Cloud Data Fusion Studio, quindi seleziona lo spazio dei nomi in cui creare il profilo. Dopodiché, puoi creare un profilo che esiste solo all'interno di quello spazio dei nomi.

Assegnazione del profilo di calcolo

Puoi assegnare i profili di calcolo alle pipeline in modalità batch nei seguenti modi:

  • Assegna un profilo predefinito per l'istanza Cloud Data Fusion.
  • Assegna un profilo predefinito per uno spazio dei nomi specifico.
  • Assegna un profilo a una pipeline in modalità batch da utilizzare per le esecuzioni avviate manualmente.
  • Assegna un profilo a una pianificazione della pipeline.

Se un profilo è impostato nella pianificazione che attiva un'esecuzione o se esegui manualmente una pipeline e a quest'ultima è assegnato un profilo, Cloud Data Fusion utilizza quel profilo di calcolo.

Se non è impostato alcun profilo, Cloud Data Fusion utilizza il profilo predefinito per lo spazio dei nomi. Se non è impostato alcun profilo predefinito per lo spazio dei nomi,

Cloud Data Fusion utilizza il profilo predefinito di sistema. Se non è impostato alcun valore predefinito di sistema, viene utilizzato il profilo integrato.

Assegnare un profilo di calcolo predefinito

Per assegnare profili predefiniti a uno spazio dei nomi o a un'istanza Cloud Data Fusion, vai a Cloud Data Fusion Studio e fai clic su Amministratore di sistema > Configurazione > Profili di calcolo di sistema. Per selezionare il valore predefinito, fai clic sulla stella accanto al nome del profilo.

(Facoltativo) Utilizzare i microservizi delle preferenze per impostare i profili predefiniti

  • Per impostare il profilo predefinito, imposta una preferenza nell'istanza Cloud Data Fusion con la chiave system.profile.name e il valore system:<profile-name>.
  • Per impostare il profilo predefinito per uno spazio dei nomi, imposta una preferenza nello spazio dei nomi scelto con la chiave system.profile.name e il valore <scope>:<profile-name>.

Assegnare un profilo di calcolo per le esecuzioni manuali

Per assegnare un profilo da utilizzare per le esecuzioni manuali della pipeline:

  1. Vai alla pagina dei dettagli della pipeline.
  2. Fai clic su Configura > Configurazione di calcolo.
  3. Seleziona un profilo e fai clic su Salva. Il profilo selezionato viene utilizzato ogni volta che la pipeline viene eseguita manualmente.

In alternativa, puoi utilizzare i microservizi delle preferenze per impostare il profilo per le esecuzioni manuali impostando la preferenza sull'entità DataPipelineWorkflow con la chiave system.profile.name e il valore <scope>:<profile-name>.

Assegnare un profilo di calcolo a una pianificazione

Ogni volta che crei una pianificazione per una pipeline, puoi assegnarle un profilo. Ogni volta che la pianificazione attiva un'esecuzione della pipeline, verrà utilizzato quel profilo per l'esecuzione. Questo vale per le pianificazioni temporali e per le pianificazioni attivate da altre pipeline.

Sostituire una configurazione del profilo di calcolo

Quando viene creato un profilo, ogni impostazione di configurazione può essere resa immutabile bloccandola. Tuttavia, se le impostazioni di configurazione non sono bloccate, possono essere sostituite in fase di runtime. Per sostituire la configurazione del profilo:

  1. Nella pagina Elenco pipeline, seleziona la pipeline di cui hai eseguito il deployment che vuoi eseguire.
  2. Nella pagina dei dettagli della pipeline, fai clic su Configura.
  3. Scegli un profilo di calcolo e fai clic su Personalizza.
  4. Modifica le impostazioni e fai clic su Salva.

Puoi utilizzare gli argomenti di runtime e le proprietà della pianificazione per modificare le dimensioni del cluster e altre impostazioni.

  • Per sostituire il profilo utilizzato, imposta un argomento di runtime con la chiave system.profile.name e il valore <scope>:<profile-name>.
  • Per sostituire una proprietà del profilo, imposta un argomento di runtime con la chiave system.profile.properties.<property-name> e il valore uguale al valore di quella proprietà.

Ad esempio, per sostituire numWorkerssetting con il valore 10, imposta una preferenza o un argomento di runtime con la chiave system.profile.properties.numWorkers e il valore 10.

Passaggi successivi