Crea un cluster Dataproc
Requisiti:
Nome: il nome del cluster deve iniziare con una lettera minuscola seguita da un massimo di 51 lettere minuscole, numeri e trattini e non può terminare con un trattino.
Regione del cluster: devi specificare una regione Compute Engine per il cluster, ad esempio
us-east1oeurope-west1, per isolare le risorse del cluster, come le istanze VM e i metadati del cluster archiviati in Cloud Storage, all'interno della regione.- Per ulteriori informazioni sugli endpoint regionali, consulta Endpoint regionali.
- Per informazioni sulla selezione di una regione, consulta Regioni e zone disponibili. Puoi anche eseguire il
gcloud compute regions listcomando per visualizzare un elenco delle regioni disponibili.
Connettività: le istanze di macchine virtuali Compute Engine (VM) in un cluster Dataproc, costituito da VM master e worker, richiedono una connettività di rete IP interna completa. La rete VPC
defaultfornisce questa connettività (vedi Configurazione della rete del cluster Dataproc).
gcloud
Per creare un cluster Dataproc dalla riga di comando, esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
Il comando crea un cluster con le impostazioni predefinite del servizio Dataproc per le istanze di macchine virtuali master e worker, le dimensioni e i tipi di disco, il tipo di rete, la regione e la zona in cui viene eseguito il deployment del cluster e altre impostazioni del cluster. Per informazioni sull'utilizzo dei flag della riga di comando per personalizzare le impostazioni del cluster, consulta il comando gcloud dataproc clusters create.
Crea un cluster con un file YAML
- Esegui il seguente
gcloudcomando per esportare la configurazione di un cluster Dataproc esistente in uncluster.yamlfile.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Crea un nuovo cluster importando la configurazione del file YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Nota: durante l'operazione di esportazione, i campi specifici del cluster, come il nome del cluster, i campi di sola uscita e le etichette applicate automaticamente, vengono filtrati. Questi campi non sono consentiti nel file YAML importato utilizzato per creare un cluster.
della console Dataproc Google Cloud per fare in modo che la console crei una richiesta API REST equivalente o un comando dello strumentogcloud da utilizzare nel codice o dalla riga di comando per creare un cluster.
REST
Questa sezione mostra come creare un cluster con i valori obbligatori e la configurazione predefinita (1 master, 2 worker).
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- CLUSTER_NAME: nome del cluster
- PROJECT: Google Cloud ID progetto
- REGION: una regione Compute Engine disponibile in cui verrà creato il cluster.
- ZONE: una zona facoltativa all'interno della regione selezionata in cui verrà creato il cluster.
Metodo HTTP e URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corpo JSON della richiesta:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"n1-standard-2",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Console
Apri la pagina Crea un cluster di Dataproc nella Google Cloud console nel browser, quindi fai clic su Crea nella riga del cluster su Compute Engine nella pagina Crea un cluster Dataproc su Compute Engine. Il riquadro Configura cluster è selezionato con i campi compilati con i valori predefiniti. Puoi selezionare ogni riquadro e confermare o modificare i valori predefiniti per personalizzare il cluster.
Fai clic su Crea per creare il cluster. Il nome del cluster viene visualizzato nella pagina Cluster e il relativo stato viene aggiornato a In esecuzione dopo il provisioning del cluster. Fai clic sul nome del cluster per aprire la pagina dei dettagli del cluster dove puoi esaminare job, istanze e impostazioni di configurazione per il cluster e connetterti alle interfacce web in esecuzione sul cluster.