Managed Service for Apache Spark-Cluster erstellen
Voraussetzungen:
Name:Der Clustername muss mit einem Kleinbuchstaben beginnen, gefolgt von bis zu 51 Kleinbuchstaben, Ziffern und Bindestrichen. Das letzte Zeichen darf kein Bindestrich sein.
Clusterregion:Sie müssen eine Compute Engine-Region für den Cluster angeben, z. B.
us-east1odereurope-west1, um Clusterressourcen wie VM-Instanzen und Clustermetadaten, die in Cloud Storage gespeichert sind, innerhalb der Region zu isolieren.- Weitere Informationen zu Compute Engine-Regionen finden Sie unter Clusterregion.
- Informationen zum Auswählen von Regionen finden Sie unter Verfügbare Regionen und Zonen. Sie können auch den Befehl
gcloud compute regions listausführen, um eine Liste der verfügbaren Regionen anzuzeigen.
Verbindung:Compute Engine-VM-Instanzen in einem Managed Service for Apache Spark-Cluster, die aus Master- und Worker-VMs bestehen, erfordern vollständige interne IP-Adressen-Netzwerkverbindungen. Das
default-VPC-Netzwerk bietet diese Verbindung (siehe Netzwerkkonfiguration für Managed Service for Apache Spark-Cluster).Maschinentyp (empfohlen): Die Angabe eines Maschinentyps ist zwar optional, Google empfiehlt jedoch, explizit einen Maschinentyp für die Master- und Worker-VMs in Ihrem Cluster auszuwählen. Wenn Sie keinen Maschinentyp angeben, wählt Managed Service for Apache Spark Maschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit aus. Diese dynamische Auswahl kann zu Schwankungen bei Kosten und Leistung führen.
- Weitere Informationen zur Auswahl eines Maschinentyps finden Sie unter Unterstützte Maschinentypen.
- Um potenzielle Probleme mit der Nichtverfügbarkeit von Ressourcen zu vermeiden, empfehlen wir die Verwendung von flexiblen VMs, mit denen Sie eine Liste akzeptabler Maschinentypen angeben können.
Console
Öffnen Sie die Seite Cluster erstellen für Managed Service for Apache Spark in der Google Cloud Console in Ihrem Browser und klicken Sie dann auf der Seite Dataproc-Cluster in Compute Engine erstellen in der Zeile für Compute Engine auf Erstellen. Der Bereich Cluster einrichten wird mit Feldern ausgewählt, die mit Standardwerten gefüllt sind. Sie können jedes Feld auswählen und Standardwerte prüfen oder ändern, um den Cluster anzupassen.
Klicken Sie auf Erstellen, um den Cluster zu erstellen. Der Clustername wird auf der Seite Cluster angezeigt und sein Status wird in „Aktiv“ aktualisiert, nachdem der Cluster bereitgestellt wurde. Klicken Sie auf den Clusternamen, um die Seite „Clusterdetails“ zu öffnen. Hier können Sie Jobs, Instanzen und Konfigurationseinstellungen für den Cluster überprüfen und eine Verbindung zu den Weboberflächen herstellen, die auf Ihrem Cluster ausgeführt werden.
gcloud
Führen Sie zum Erstellen eines Managed Service for Apache Spark-Clusters in der Befehlszeile den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell aus.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --master-machine-type=MASTER_MACHINE_TYPE \ --worker-machine-type=WORKER_MACHINE_TYPE
Mit dem Befehl wird ein Cluster erstellt. Master- und Worker-Maschinentypen sind zwar optional, es wird jedoch empfohlen, sie explizit mit den Flags --master-machine-type und --worker-machine-type anzugeben (z. B. n4-standard-4), um konsistente Kosten und Leistung zu gewährleisten. Wenn Sie keine Maschinentypen angeben, werden Standardmaschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit ausgewählt. Weitere Informationen dazu, wie Sie mit Befehlszeilen-Flags Clustereinstellungen anpassen können, finden Sie im Befehl gcloud dataproc clusters create.
Erstellen Sie einen Cluster mit einer YAML-Datei
- Führen Sie den folgenden
gcloud-Befehl aus, um die Konfiguration eines vorhandenen Managed Service for Apache Spark-Clusters in einecluster.yaml-Datei zu exportieren.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Erstellen Sie einen neuen Cluster. Dazu importieren Sie die Konfiguration der YAML-Datei.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Hinweis:Während des Exportvorgangs werden clusterspezifische Felder (z. B. der Clustername), Nur-Ausgabe-Felder und automatisch angewendete Labels gefiltert. Diese Felder sind in der importierten YAML-Datei, die zum Erstellen eines Clusters verwendet wurde, nicht zulässig.
REST
In diesem Abschnitt wird beschrieben, wie Sie einen Cluster erstellen. Die Angabe von Maschinentypen ist zwar optional, es wird jedoch empfohlen, machine_type_uri explizit in Ihre master_config und worker_config (z. B. n4-standard-4) aufzunehmen, um konsistente Kosten und Leistung zu gewährleisten. Wenn Sie keine Maschinentypen angeben, werden Standardmaschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit ausgewählt.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- CLUSTER_NAME: Clustername
- PROJECT: Google Cloud Projekt-ID
- REGION: Eine verfügbare Compute Engine-Region, in der der Cluster erstellt wird.
- ZONE: Eine optionale Zone in der ausgewählten Region, in der der Cluster erstellt wird.
- MASTER_MACHINE_TYPE: (Empfohlen) Der Maschinentyp für den Masterknoten (z. B.
n4-standard-4). - WORKER_MACHINE_TYPE: (Empfohlen) Der Maschinentyp für Worker-Knoten (z. B.
n4-standard-4).
HTTP-Methode und URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
JSON-Text anfordern:
{
"project_id":"PROJECT",
"cluster_name":"CLUSTER_NAME",
"config":{
"master_config":{
"num_instances":1,
"machine_type_uri":"MASTER_MACHINE_TYPE",
"image_uri":""
},
"softwareConfig": {
"imageVersion": "",
"properties": {},
"optionalComponents": []
},
"worker_config":{
"num_instances":2,
"machine_type_uri":"WORKER_MACHINE_TYPE",
"image_uri":""
},
"gce_cluster_config":{
"zone_uri":"ZONE"
}
}
}
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{
"name": "projects/PROJECT/regions/REGION/operations/b5706e31......",
"metadata": {
"@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata",
"clusterName": "CLUSTER_NAME",
"clusterUuid": "5fe882b2-...",
"status": {
"state": "PENDING",
"innerState": "PENDING",
"stateStartTime": "2019-11-21T00:37:56.220Z"
},
"operationType": "CREATE",
"description": "Create cluster with 2 workers",
"warnings": [
"For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ...""
]
}
}
Go
- Clientbibliothek installieren
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Hinweis:Die Angabe von Maschinentypen ist zwar optional, es wird jedoch empfohlen, die Master- und Worker-Maschinentypen in der Clusterkonfiguration explizit festzulegen (z. B. auf
n4-standard-4), um konsistente Kosten und Leistung zu gewährleisten. Wenn sie nicht angegeben werden, werden Standardmaschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit ausgewählt.
Java
- Clientbibliothek installieren
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Hinweis:Die Angabe von Maschinentypen ist zwar optional, es wird jedoch empfohlen, die Master- und Worker-Maschinentypen in der Clusterkonfiguration explizit festzulegen (z. B. auf
n4-standard-4), um konsistente Kosten und Leistung zu gewährleisten. Wenn sie nicht angegeben werden, werden Standardmaschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit ausgewählt.
Node.js
- Clientbibliothek installieren
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Hinweis:Die Angabe von Maschinentypen ist zwar optional, es wird jedoch empfohlen, die Master- und Worker-Maschinentypen in der Clusterkonfiguration explizit festzulegen (z. B. auf
n4-standard-4), um konsistente Kosten und Leistung zu gewährleisten. Wenn sie nicht angegeben werden, werden Standardmaschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit ausgewählt.
Python
- Clientbibliothek installieren
- Standardanmeldedaten für Anwendungen einrichten
- Führen Sie den Code aus.
Hinweis:Die Angabe von Maschinentypen ist zwar optional, es wird jedoch empfohlen, die Master- und Worker-Maschinentypen in der Clusterkonfiguration explizit festzulegen (z. B. auf
n4-standard-4), um konsistente Kosten und Leistung zu gewährleisten. Wenn sie nicht angegeben werden, werden Standardmaschinentypen dynamisch basierend auf der Ressourcenverfügbarkeit ausgewählt.