Il provisioning di Managed Service for Apache Spark in Cloud Data Fusion chiama l'API Dataproc per creare ed eliminare cluster nei tuoi progetti Google Cloud. Puoi configurare i cluster nelle impostazioni del provisioner.
Per ulteriori informazioni sulla compatibilità tra le versioni di Cloud Data Fusion e le versioni di Managed Service for Apache Spark, consulta Compatibilità delle versioni.
Proprietà
| Proprietà | Descrizione |
|---|---|
| ID progetto | Il Google Cloud progetto in cui viene creato il cluster Managed Service for Apache Spark. Il progetto deve avere l'API Dataproc abilitata. |
| Chiave dell'account di servizio del creator | La chiave del account di servizio fornita al provisioner deve avere l'autorizzazione per accedere alle API Managed Service for Apache Spark e Compute Engine. Poiché la chiave dell'account è sensibile, ti consigliamo di fornirla utilizzando Secure Storage. Dopo aver creato la chiave sicura, puoi aggiungerla a uno spazio dei nomi o a un profilo di calcolo di sistema. Per un profilo di calcolo dello spazio dei nomi, fai clic sullo scudo e seleziona la chiave sicura. Per un profilo di calcolo di sistema, inserisci il nome della chiave nel campo Chiave account protetto. |
| Regione | Una posizione geografica in cui puoi ospitare le tue risorse, ad esempio i nodi di calcolo per il cluster Managed Service for Apache Spark. |
| Zona | Un'area di deployment isolata all'interno di una regione. |
| Rete | La rete VPC nel tuo progetto Google Cloud che verrà utilizzata quando crei un cluster Managed Service per Apache Spark. |
| ID progetto host di rete | Se la rete si trova in un altro progetto Google Cloud , inserisci l'ID di quel progetto. Per un VPC condiviso, inserisci l'ID progetto host in cui si trova la rete. |
| Subnet | La subnet da utilizzare durante la creazione dei cluster. Deve trovarsi all'interno della rete specificata e nella regione in cui si trova la zona. Se il campo viene lasciato vuoto, viene selezionata una subnet in base alla rete e alla zona. |
| Service account runner | Il nome del account di servizio delle macchine virtuali (VM) Managed Service for Apache Spark utilizzate per l'esecuzione dei programmi. Se lasciato vuoto, viene utilizzato il account di servizio Compute Engine predefinito. |
| Numero di master | Il numero di nodi master nel cluster. Questi nodi contengono YARN Resource Manager, NameNode HDFS e tutti i driver. Deve essere impostato su 1 o 3. Il valore predefinito è 1. |
| Tipo di macchina master | Il tipo di macchina master da utilizzare. Seleziona uno dei seguenti tipi di macchina:
In Cloud Data Fusion versione 6.7.2 e successive, il valore predefinito è e2. Nella versione 6.7.1, il valore predefinito è n2. Nella versione 6.7.0 e precedenti, il valore predefinito è n1. |
| Master core | Numero di core virtuali allocati a un nodo master. Il valore predefinito è 2. |
| Memoria master (GB) | La quantità di memoria, in gigabyte, allocata a un nodo master. Il valore predefinito è 8 GB. |
| Dimensioni del disco master (GB) | Dimensione del disco, in gigabyte, allocata a un nodo master. Il valore predefinito è 1000 GB. |
| Tipo di disco master | Tipo di disco di avvio per un nodo master:
Il valore predefinito è Disco permanente standard. |
| Tipo di macchina worker | Il tipo di macchina worker da utilizzare. Seleziona uno dei seguenti tipi di macchina:
In Cloud Data Fusion versione 6.7.2 e successive, il valore predefinito è e2. Nella versione 6.7.1, il valore predefinito è n2. Nella versione 6.7.0 e precedenti, il valore predefinito è n1. |
| Core worker | Numero di core virtuali allocati a un nodo worker. Il valore predefinito è 2. |
| Memoria worker (GB) | La quantità di memoria, in gigabyte, allocata a un nodo worker. Il valore predefinito è 8 GB. |
| Dimensioni disco worker (GB) | Dimensione del disco, in gigabyte, allocata a un nodo worker. Il valore predefinito è 1000 GB. |
| Tipo di disco worker | Tipo di disco di avvio per un nodo worker:
Il valore predefinito è Disco permanente standard. |
| Utilizzare la scalabilità automatica predefinita | Consente di utilizzare la scalabilità automatica predefinita di Managed Service for Apache Spark. |
| Numero di worker principali | I nodi worker contengono un NodeManager YARN e un DataNode HDFS. Il valore predefinito è 2. |
| Numero di worker secondari | I nodi worker secondari contengono un NodeManager YARN, ma non un DataNode HDFS. Questo valore è normalmente impostato su zero, a meno che un criterio di scalabilità automatica non richieda un valore superiore. |
| Policy di scalabilità automatica | Percorso dell'ID della norma di scalabilità automatica o dell'URI della risorsa. Per informazioni sulla configurazione e sull'utilizzo della scalabilità automatica di Managed Service for Apache Spark per ridimensionare automaticamente e dinamicamente i cluster in base alle esigenze del carico di lavoro, consulta Quando utilizzare la scalabilità automatica e Scalare automaticamente i cluster Managed Service for Apache Spark. |
| Metadati | Metadati aggiuntivi per le istanze in esecuzione nel cluster. In genere puoi utilizzarlo per monitorare la fatturazione e gli storni. Per ulteriori informazioni, consulta la sezione Metadati dei cluster. |
| Tag di rete | Assegna tag di rete per applicare regole firewall ai nodi specifici di un cluster. I tag di rete devono iniziare con una lettera minuscola e possono contenere lettere minuscole, numeri e trattini. I tag devono terminare con una lettera minuscola o un numero. |
| Abilita avvio protetto | Attiva l'avvio protetto sulle VM Managed Service for Apache Spark. Il valore predefinito è False. |
| Abilita vTPM | Attiva il Virtual Trusted Platform Module (vTPM) sulle VM Managed Service per Apache Spark. Il valore predefinito è False. |
| Abilita il monitoraggio dell'integrità | Attiva il monitoraggio dell'integrità virtuale sulle VM Managed Service for Apache Spark. Il valore predefinito è False. |
| Versione immagine | La versione dell'immagine di Managed Service per Apache Spark. Se il campo viene lasciato vuoto, ne viene selezionata una automaticamente. Se la proprietà URI immagine personalizzata viene lasciata vuota, questa proprietà viene ignorata. |
| URI immagine personalizzato | L'URI dell'immagine di Managed Service per Apache Spark. Se lasciato vuoto, viene dedotto dalla proprietà Versione immagine. |
| Bucket di gestione temporanea | Bucket Cloud Storage utilizzato per organizzare le dipendenze dei job e i file di configurazione per l'esecuzione delle pipeline in Managed Service for Apache Spark. |
| Bucket temporaneo | Bucket Cloud Storage utilizzato per archiviare i dati dei job e dei cluster effimeri, ad esempio i file di cronologia di Spark in Managed Service for Apache Spark. Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion. |
| Nome della chiave di crittografia | La chiave di crittografia gestita dal cliente (CMEK) utilizzata da Managed Service for Apache Spark. |
| Ambiti OAuth | Gli ambiti OAuth 2.0 che potresti dover richiedere per accedere alle API di Google, a seconda del livello di accesso di cui hai bisogno. Google Cloud Ambito della piattaforma è sempre incluso. Questa proprietà è stata introdotta nella versione 6.9.2 di Cloud Data Fusion. |
| Azioni di inizializzazione | Un elenco di script da eseguire durante l'inizializzazione del cluster Le azioni di inizializzazione devono essere inserite in Cloud Storage. |
| Proprietà cluster | Proprietà del cluster che sostituiscono le proprietà di configurazione predefinite dei servizi Hadoop. Per saperne di più sulle coppie chiave-valore applicabili, consulta Proprietà del cluster. |
| Etichette comuni | Etichette per organizzare i cluster e i job Managed Service for Apache Spark in fase di creazione. Puoi etichettare ogni risorsa e poi filtrare le risorse in base alle etichette. Le informazioni relative alle etichette vengono inoltrate al sistema di fatturazione, in modo che i clienti possano suddividere i costi di fatturazione in base all'etichetta. |
| Tempo massimo di inattività | Configura Managed Service per Apache Spark in modo che elimini un cluster se è inattivo per un periodo di tempo superiore al numero di minuti specificato. I cluster vengono normalmente eliminati subito dopo la fine di un'esecuzione, ma l'eliminazione può non riuscire in rare situazioni. Per maggiori informazioni, vedi Risolvere i problemi relativi all'eliminazione dei cluster. Il valore predefinito è 30 minuti. |
| Salta l'eliminazione del cluster | Consente di stabilire se ignorare l'eliminazione del cluster al termine di un'esecuzione. Devi eliminare manualmente i cluster. Questo deve essere utilizzato solo durante il debug di un'esecuzione non riuscita. Il valore predefinito è False. |
| Abilita l'integrazione di Stackdriver Logging | Attiva l'integrazione di Stackdriver Logging. Il valore predefinito è True. |
| Attiva l'integrazione di Stackdriver Monitoring | Attiva l'integrazione di Stackdriver Monitoring. Il valore predefinito è True. |
| Attiva gateway dei componenti | Attiva il gateway dei componenti per accedere alle interfacce del cluster, come YARN ResourceManager e Spark HistoryServer. Il valore predefinito è False. |
| Preferisci IP esterno | Quando il sistema viene eseguito su Google Cloud nella stessa rete del cluster, in genere utilizza l'indirizzo IP interno quando comunica con il cluster. Per utilizzare sempre l'indirizzo IP esterno, imposta questo valore su True. Il valore predefinito è False. |
| Creare un ritardo per il sondaggio | Il numero di secondi da attendere dopo la creazione di un cluster prima di iniziare il polling per verificare se il cluster è stato creato. Il valore predefinito è 60 secondi. Le impostazioni di polling controllano la frequenza con cui viene eseguito il polling dello stato del cluster durante la creazione ed eliminazione dei cluster. Se hai pianificato l'esecuzione di molte pipeline contemporaneamente, ti consigliamo di modificare queste impostazioni. |
| Crea jitter del sondaggio | Quantità massima di jitter casuale, in secondi, da aggiungere al ritardo durante la creazione di un cluster. Puoi utilizzare questa proprietà per impedire molte chiamate API simultanee in Google Cloud quando hai molte pipeline pianificate per essere eseguite esattamente nello stesso momento. Il valore predefinito è 20 secondi. |
| Ritardo eliminazione sondaggio | Il numero di secondi da attendere dopo l'eliminazione di un cluster prima di iniziare il polling per verificare se il cluster è stato eliminato. Il valore predefinito è 30 secondi. |
| Intervallo di polling | Il numero di secondi di attesa tra i polling per lo stato del cluster. Il valore predefinito è 2. |
Proprietà dell'interfaccia web del profilo Managed Service for Apache Spark mappate alle proprietà JSON
| Nome della proprietà dell'interfaccia utente del profilo Managed Service per Apache Spark | Nome della proprietà JSON del profilo Managed Service per Apache Spark |
|---|---|
| Etichetta del profilo | name |
| Nome del profilo | label |
| Descrizione | description |
| ID progetto | projectId |
| Chiave dell'account di servizio del creator | accountKey |
| Regione | region |
| Zona | zone |
| Rete | network |
| ID progetto host di rete | networkHostProjectId |
| Subnet | subnet |
| Service account runner | serviceAccount |
| Numero di master | masterNumNodes |
| Tipo di macchina master | masterMachineType |
| Master core | masterCPUs |
| Memoria master (GB) | masterMemoryMB |
| Dimensioni del disco master (GB) | masterDiskGB |
| Tipo di disco master | masterDiskType |
| Numero di worker principali | workerNumNodes |
| Numero di worker secondari | secondaryWorkerNumNodes |
| Tipo di macchina worker | workerMachineType |
| Core worker | workerCPUs |
| Memoria worker (GB) | workerMemoryMB |
| Dimensioni disco worker (GB) | workerDiskGB |
| Tipo di disco worker | workerDiskType |
| Metadati | clusterMetaData |
| Tag di rete | networkTags |
| Abilita avvio protetto | secureBootEnabled |
| Abilita vTPM | vTpmEnabled |
| Abilita il monitoraggio dell'integrità | integrityMonitoringEnabled |
| Versione immagine | imageVersion |
| URI immagine personalizzato | customImageUri |
| Bucket Cloud Storage | gcsBucket |
| Nome della chiave di crittografia | encryptionKeyName |
| Policy di scalabilità automatica | autoScalingPolicy |
| Azioni di inizializzazione | initActions |
| Proprietà cluster | clusterProperties |
| Etichette | clusterLabels |
| Tempo massimo di inattività | idleTTL |
| Salta l'eliminazione del cluster | skipDelete |
| Abilita l'integrazione di Stackdriver Logging | stackdriverLoggingEnabled |
| Attiva l'integrazione di Stackdriver Monitoring | stackdriverMonitoringEnabled |
| Attiva gateway dei componenti | componentGatewayEnabled |
| Preferisci IP esterno | preferExternalIP |
| Creare un ritardo per il sondaggio | pollCreateDelay |
| Crea jitter del sondaggio | pollCreateJitter |
| Ritardo eliminazione sondaggio | pollDeleteDelay |
| Intervallo di polling | pollInterval |
Best practice
Quando crei un cluster statico per le tue pipeline, consulta le best practice per la configurazione del cluster.
Passaggi successivi
- Scopri di più sulla gestione dei profili di calcolo.