Crea un cluster Dataproc utilizzando la Google Cloud console
Questa pagina mostra come utilizzare la Google Cloud console per creare un cluster Dataproc, eseguire un job Apache Spark di base nel cluster e poi modificare il numero di worker nel cluster.
Per seguire le indicazioni dettagliate per questa attività direttamente nella Google Cloud console, fai clic su Procedura guidata:
Prima di iniziare
- Accedi al tuo Google Cloud account. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that you have the permissions required to complete this guide.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that you have the permissions required to complete this guide.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Ruoli obbligatori
Per eseguire gli esempi in questa pagina sono necessari alcuni ruoli IAM. A seconda delle policy dell'organizzazione, questi ruoli potrebbero essere già stati concessi. Per verificare le concessioni dei ruoli, consulta Hai bisogno di concedere ruoli?.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Ruoli utente
Per ottenere le autorizzazioni necessarie per creare un cluster Dataproc, chiedi all'amministratore di concederti i seguenti ruoli IAM:
-
Dataproc Editor (
roles/dataproc.editor) sul progetto -
Utente account di servizio (
roles/iam.serviceAccountUser) sul service account predefinito di Compute Engine
Ruolo dell'account di servizio
Per assicurarti che il account di servizio predefinito di Compute Engine disponga delle autorizzazioni necessarie
per creare un cluster Dataproc,
chiedi all'amministratore di concedere il
Dataproc Worker (roles/dataproc.worker)
ruolo IAM al account di servizio predefinito di Compute Engine sul progetto.
Crea un cluster
Nellaconsole, vai alla pagina Cluster di Dataproc. Google Cloud
Fai clic su Crea cluster.
Nella finestra di dialogo Crea cluster Dataproc, fai clic su Crea nella riga Cluster su Compute Engine.
Nel campo Nome del cluster, inserisci
example-cluster.Negli elenchi Regione e Zona, seleziona una regione e una zona.
Seleziona una regione (ad esempio
us-east1oeurope-west1) per isolare le risorse, come le istanze di macchine virtuali (VM) e le posizioni di archiviazione di Cloud Storage e dei metadati utilizzate da Dataproc, nella regione. Per saperne di più, consulta Regioni e zone disponibili e Regione del cluster.Per tutte le altre opzioni, utilizza le impostazioni predefinite.
Per creare il cluster, fai clic su Crea.
Il nuovo cluster viene visualizzato in un elenco nella pagina Cluster. Lo stato è Provisioning in corso finché il cluster non è pronto per essere utilizzato, poi passa a In esecuzione. Il provisioning del cluster potrebbe richiedere alcuni minuti.
Invia un job Spark
Invia un job Spark che stima un valore di Pi:
- Nel menu di navigazione di Dataproc, fai clic su Job.
Nella pagina Job, fai clic su Invia job e poi procedi nel seguente modo:
- Nel campo ID job , utilizza l'impostazione predefinita o fornisci un ID univoco per il tuo progetto. Google Cloud
- Nel menu a discesa Cluster, seleziona
example-cluster. - In Tipo di prestazione, seleziona Spark.
- Nel campo Classe principale o jar, inserisci
org.apache.spark.examples.SparkPi. - Nel campo File jar, inserisci
file:///usr/lib/spark/examples/jars/spark-examples.jar. Nel campo Argomenti, inserisci
1000per impostare il numero di attività.Fai clic su Invia.
Il job viene visualizzato nella pagina Dettagli job. Lo stato del job è In esecuzione o In fase di avvio, poi passa a Riuscito una volta inviato.
Per evitare di scorrere l'output, fai clic su A capo: disattivato. L'output è simile al seguente:
Pi is roughly 3.1416759514167594
Per visualizzare i dettagli del job, fai clic sulla scheda Configurazione.
Aggiorna un cluster
Aggiorna il cluster modificando il numero di istanze worker:
- Nel menu di navigazione di Dataproc, fai clic su Cluster.
- Nell'elenco dei cluster, fai clic su
example-cluster. Nella pagina Dettagli cluster, fai clic sulla scheda Configurazione.
Vengono visualizzate le impostazioni del cluster.
Fai clic su Modifica.
Nel campo Nodi worker, inserisci
5.Fai clic su Salva.
Ora il cluster è aggiornato. Per ridurre il numero di nodi worker al valore originale, segui la stessa procedura.
Libera spazio
Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Per eliminare il cluster, nella pagina Dettagli cluster
per
example-cluster, fai clic su Elimina. - Fai clic su Elimina per confermare l'eliminazione del cluster.
Passaggi successivi
- Prova questa guida rapida utilizzando altri strumenti:
- Scopri come creare regole firewall efficaci quando crei un progetto.
- Scopri come scrivere ed eseguire un job Spark Scala.