Proprietà del provisioning di Managed Service per Apache Spark

Il provisioning di Managed Service for Apache Spark in Cloud Data Fusion chiama l'API Dataproc per creare ed eliminare cluster nei tuoi progetti Google Cloud. Puoi configurare i cluster nelle impostazioni del provisioner.

Per ulteriori informazioni sulla compatibilità tra le versioni di Cloud Data Fusion e le versioni di Managed Service for Apache Spark, consulta Compatibilità delle versioni.

Proprietà

Proprietà Descrizione
ID progetto Il Google Cloud progetto in cui viene creato il cluster Managed Service for Apache Spark. Il progetto deve avere l'API Dataproc abilitata.
Chiave dell'account di servizio del creator

La chiave del account di servizio fornita al provisioner deve avere l'autorizzazione per accedere alle API Managed Service for Apache Spark e Compute Engine. Poiché la chiave dell'account è sensibile, ti consigliamo di fornirla utilizzando Secure Storage.

Dopo aver creato la chiave sicura, puoi aggiungerla a uno spazio dei nomi o a un profilo di calcolo di sistema. Per un profilo di calcolo dello spazio dei nomi, fai clic sullo scudo e seleziona la chiave sicura. Per un profilo di calcolo di sistema, inserisci il nome della chiave nel campo Chiave account protetto.

Regione Una posizione geografica in cui puoi ospitare le tue risorse, ad esempio i nodi di calcolo per il cluster Managed Service for Apache Spark.
Zona Un'area di deployment isolata all'interno di una regione.
Rete La rete VPC nel tuo progetto Google Cloud che verrà utilizzata quando crei un cluster Managed Service per Apache Spark.
ID progetto host di rete Se la rete si trova in un altro progetto Google Cloud , inserisci l'ID di quel progetto. Per un VPC condiviso, inserisci l'ID progetto host in cui si trova la rete.
Subnet La subnet da utilizzare durante la creazione dei cluster. Deve trovarsi all'interno della rete specificata e nella regione in cui si trova la zona. Se il campo viene lasciato vuoto, viene selezionata una subnet in base alla rete e alla zona.
Service account runner Il nome del account di servizio delle macchine virtuali (VM) Managed Service for Apache Spark utilizzate per l'esecuzione dei programmi. Se lasciato vuoto, viene utilizzato il account di servizio Compute Engine predefinito.
Numero di master

Il numero di nodi master nel cluster. Questi nodi contengono YARN Resource Manager, NameNode HDFS e tutti i driver. Deve essere impostato su 1 o 3.

Il valore predefinito è 1.

Tipo di macchina master

Il tipo di macchina master da utilizzare. Seleziona uno dei seguenti tipi di macchina:

  • n1
  • n2
  • n2d
  • e2

In Cloud Data Fusion versione 6.7.2 e successive, il valore predefinito è e2.

Nella versione 6.7.1, il valore predefinito è n2.

Nella versione 6.7.0 e precedenti, il valore predefinito è n1.

Master core

Numero di core virtuali allocati a un nodo master.

Il valore predefinito è 2.

Memoria master (GB)

La quantità di memoria, in gigabyte, allocata a un nodo master.

Il valore predefinito è 8 GB.

Dimensioni del disco master (GB)

Dimensione del disco, in gigabyte, allocata a un nodo master.

Il valore predefinito è 1000 GB.

Tipo di disco master

Tipo di disco di avvio per un nodo master:

  • Disco permanente standard
  • Disco permanente SSD

Il valore predefinito è Disco permanente standard.

Tipo di macchina worker

Il tipo di macchina worker da utilizzare. Seleziona uno dei seguenti tipi di macchina:

  • n1
  • n2
  • n2d
  • e2

In Cloud Data Fusion versione 6.7.2 e successive, il valore predefinito è e2.

Nella versione 6.7.1, il valore predefinito è n2.

Nella versione 6.7.0 e precedenti, il valore predefinito è n1.

Core worker

Numero di core virtuali allocati a un nodo worker.

Il valore predefinito è 2.

Memoria worker (GB)

La quantità di memoria, in gigabyte, allocata a un nodo worker.

Il valore predefinito è 8 GB.

Dimensioni disco worker (GB)

Dimensione del disco, in gigabyte, allocata a un nodo worker.

Il valore predefinito è 1000 GB.

Tipo di disco worker

Tipo di disco di avvio per un nodo worker:

  • Disco permanente standard
  • Disco permanente SSD

Il valore predefinito è Disco permanente standard.

Utilizzare la scalabilità automatica predefinita Consente di utilizzare la scalabilità automatica predefinita di Managed Service for Apache Spark.
Numero di worker principali

I nodi worker contengono un NodeManager YARN e un DataNode HDFS.

Il valore predefinito è 2.

Numero di worker secondari I nodi worker secondari contengono un NodeManager YARN, ma non un DataNode HDFS. Questo valore è normalmente impostato su zero, a meno che un criterio di scalabilità automatica non richieda un valore superiore.
Policy di scalabilità automatica

Percorso dell'ID della norma di scalabilità automatica o dell'URI della risorsa.

Per informazioni sulla configurazione e sull'utilizzo della scalabilità automatica di Managed Service for Apache Spark per ridimensionare automaticamente e dinamicamente i cluster in base alle esigenze del carico di lavoro, consulta Quando utilizzare la scalabilità automatica e Scalare automaticamente i cluster Managed Service for Apache Spark.

Metadati Metadati aggiuntivi per le istanze in esecuzione nel cluster. In genere puoi utilizzarlo per monitorare la fatturazione e gli storni. Per ulteriori informazioni, consulta la sezione Metadati dei cluster.
Tag di rete Assegna tag di rete per applicare regole firewall ai nodi specifici di un cluster. I tag di rete devono iniziare con una lettera minuscola e possono contenere lettere minuscole, numeri e trattini. I tag devono terminare con una lettera minuscola o un numero.
Abilita avvio protetto

Attiva l'avvio protetto sulle VM Managed Service for Apache Spark.

Il valore predefinito è False.

Abilita vTPM

Attiva il Virtual Trusted Platform Module (vTPM) sulle VM Managed Service per Apache Spark.

Il valore predefinito è False.

Abilita il monitoraggio dell'integrità

Attiva il monitoraggio dell'integrità virtuale sulle VM Managed Service for Apache Spark.

Il valore predefinito è False.

Versione immagine La versione dell'immagine di Managed Service per Apache Spark. Se il campo viene lasciato vuoto, ne viene selezionata una automaticamente. Se la proprietà URI immagine personalizzata viene lasciata vuota, questa proprietà viene ignorata.
URI immagine personalizzato L'URI dell'immagine di Managed Service per Apache Spark. Se lasciato vuoto, viene dedotto dalla proprietà Versione immagine.
Bucket di gestione temporanea Bucket Cloud Storage utilizzato per organizzare le dipendenze dei job e i file di configurazione per l'esecuzione delle pipeline in Managed Service for Apache Spark.
Bucket temporaneo

Bucket Cloud Storage utilizzato per archiviare i dati dei job e dei cluster effimeri, ad esempio i file di cronologia di Spark in Managed Service for Apache Spark.

Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion.

Nome della chiave di crittografia La chiave di crittografia gestita dal cliente (CMEK) utilizzata da Managed Service for Apache Spark.
Ambiti OAuth

Gli ambiti OAuth 2.0 che potresti dover richiedere per accedere alle API di Google, a seconda del livello di accesso di cui hai bisogno. Google Cloud Ambito della piattaforma è sempre incluso.

Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion.

Azioni di inizializzazione Un elenco di script da eseguire durante l'inizializzazione del cluster Le azioni di inizializzazione devono essere inserite in Cloud Storage.
Proprietà cluster Proprietà del cluster che sostituiscono le proprietà di configurazione predefinite dei servizi Hadoop. Per saperne di più sulle coppie chiave-valore applicabili, consulta Proprietà del cluster.
Etichette comuni

Etichette per organizzare i cluster e i job Managed Service for Apache Spark in fase di creazione.

Puoi etichettare ogni risorsa e poi filtrare le risorse in base alle etichette. Le informazioni relative alle etichette vengono inoltrate al sistema di fatturazione, in modo che i clienti possano suddividere i costi di fatturazione in base all'etichetta.

Tempo massimo di inattività

Configura Managed Service per Apache Spark in modo che elimini un cluster se è inattivo per un periodo di tempo superiore al numero di minuti specificato. I cluster vengono normalmente eliminati subito dopo la fine di un'esecuzione, ma l'eliminazione può non riuscire in rare situazioni. Per maggiori informazioni, vedi Risolvere i problemi relativi all'eliminazione dei cluster.

Il valore predefinito è 30 minuti.

Salta l'eliminazione del cluster

Consente di stabilire se ignorare l'eliminazione del cluster al termine di un'esecuzione. Devi eliminare manualmente i cluster. Questo deve essere utilizzato solo durante il debug di un'esecuzione non riuscita.

Il valore predefinito è False.

Abilita l'integrazione di Stackdriver Logging

Attiva l'integrazione di Stackdriver Logging.

Il valore predefinito è True.

Attiva l'integrazione di Stackdriver Monitoring

Attiva l'integrazione di Stackdriver Monitoring.

Il valore predefinito è True.

Attiva gateway dei componenti

Attiva il gateway dei componenti per accedere alle interfacce del cluster, come YARN ResourceManager e Spark HistoryServer.

Il valore predefinito è False.

Preferisci IP esterno

Quando il sistema viene eseguito su Google Cloud nella stessa rete del cluster, in genere utilizza l'indirizzo IP interno quando comunica con il cluster. Per utilizzare sempre l'indirizzo IP esterno, imposta questo valore su True.

Il valore predefinito è False.

Creare un ritardo per il sondaggio

Il numero di secondi da attendere dopo la creazione di un cluster prima di iniziare il polling per verificare se il cluster è stato creato.

Il valore predefinito è 60 secondi.

Le impostazioni di polling controllano la frequenza con cui viene eseguito il polling dello stato del cluster durante la creazione ed eliminazione dei cluster. Se hai pianificato l'esecuzione di molte pipeline contemporaneamente, ti consigliamo di modificare queste impostazioni.

Crea jitter del sondaggio

Quantità massima di jitter casuale, in secondi, da aggiungere al ritardo durante la creazione di un cluster. Puoi utilizzare questa proprietà per impedire molte chiamate API simultanee in Google Cloud quando hai molte pipeline pianificate per essere eseguite esattamente nello stesso momento.

Il valore predefinito è 20 secondi.

Ritardo eliminazione sondaggio

Il numero di secondi da attendere dopo l'eliminazione di un cluster prima di iniziare il polling per verificare se il cluster è stato eliminato.

Il valore predefinito è 30 secondi.

Intervallo di polling

Il numero di secondi di attesa tra i polling per lo stato del cluster.

Il valore predefinito è 2.

Proprietà dell'interfaccia web del profilo Managed Service for Apache Spark mappate alle proprietà JSON

Nome della proprietà dell'interfaccia utente del profilo Managed Service per Apache Spark Nome della proprietà JSON del profilo Managed Service per Apache Spark
Etichetta del profilo name
Nome del profilo label
Descrizione description
ID progetto projectId
Chiave dell'account di servizio del creator accountKey
Regione region
Zona zone
Rete network
ID progetto host di rete networkHostProjectId
Subnet subnet
Service account runner serviceAccount
Numero di master masterNumNodes
Tipo di macchina master masterMachineType
Master core masterCPUs
Memoria master (GB) masterMemoryMB
Dimensioni del disco master (GB) masterDiskGB
Tipo di disco master masterDiskType
Numero di worker principali workerNumNodes
Numero di worker secondari secondaryWorkerNumNodes
Tipo di macchina worker workerMachineType
Core worker workerCPUs
Memoria worker (GB) workerMemoryMB
Dimensioni disco worker (GB) workerDiskGB
Tipo di disco worker workerDiskType
Metadati clusterMetaData
Tag di rete networkTags
Abilita avvio protetto secureBootEnabled
Abilita vTPM vTpmEnabled
Abilita il monitoraggio dell'integrità integrityMonitoringEnabled
Versione immagine imageVersion
URI immagine personalizzato customImageUri
Bucket Cloud Storage gcsBucket
Nome della chiave di crittografia encryptionKeyName
Policy di scalabilità automatica autoScalingPolicy
Azioni di inizializzazione initActions
Proprietà cluster clusterProperties
Etichette clusterLabels
Tempo massimo di inattività idleTTL
Salta l'eliminazione del cluster skipDelete
Abilita l'integrazione di Stackdriver Logging stackdriverLoggingEnabled
Attiva l'integrazione di Stackdriver Monitoring stackdriverMonitoringEnabled
Attiva gateway dei componenti componentGatewayEnabled
Preferisci IP esterno preferExternalIP
Creare un ritardo per il sondaggio pollCreateDelay
Crea jitter del sondaggio pollCreateJitter
Ritardo eliminazione sondaggio pollDeleteDelay
Intervallo di polling pollInterval

Best practice

Quando crei un cluster statico per le tue pipeline, consulta le best practice per la configurazione del cluster.

Passaggi successivi