Dataproc-Cluster mit der Google Cloud -Console erstellen
Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console einen Dataproc-Cluster erstellen, einen einfachen Apache Spark-Job im Cluster ausführen und dann die Anzahl der Worker im Cluster ändern.
Eine detaillierte Anleitung dazu finden Sie direkt in der Google Cloud Console. Klicken Sie dazu einfach auf Anleitung:
Hinweis
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Prüfen Sie, ob Sie die Berechtigungen haben, die für diese Anleitung erforderlich sind.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Prüfen Sie, ob Sie die Berechtigungen haben, die für diese Anleitung erforderlich sind.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
Dataproc-Bearbeiter (
roles/dataproc.editor) für das Projekt -
Dienstkontonutzer (
roles/iam.serviceAccountUser) für das Compute Engine-Standarddienstkonto Rufen Sie in der Google Cloud Console die Seite Cluster für Dataproc auf.
Klicken Sie auf Cluster erstellen.
Klicken Sie im Dialogfeld Dataproc-Cluster erstellen in der Zeile Cluster in Compute Engine auf Erstellen.
Geben Sie im Feld Clustername
example-clusterein.Wählen Sie in den Listen Region und Zone eine Region und eine Zone aus.
Wählen Sie eine Region aus (z. B.
us-east1odereurope-west1), um Ressourcen wie VM-Instanzen (virtuelle Maschinen) und Cloud Storage sowie Metadatenspeicherorte zu isolieren, die von Dataproc in der Region verwendet werden. Weitere Informationen finden Sie unter Verfügbare Regionen und Zonen und Regionale Endpunkte.Verwenden Sie für alle anderen Optionen die Standardeinstellungen.
Klicken Sie auf Erstellen, um den Cluster zu erstellen.
Der neue Cluster wird in einer Liste auf der Seite Cluster angezeigt. Der Status ist Wird bereitgestellt, bis der Cluster zur Verwendung bereit ist. Anschließend ändert sich der Status in Aktiv. Die Bereitstellung des Clusters kann einige Minuten dauern.
- Klicken Sie im Dataproc-Navigationsmenü auf Jobs.
Klicken Sie auf der Seite Jobs auf Job senden und gehen Sie dann so vor:
- Verwenden Sie im Feld Job-ID die Standardeinstellung oder geben Sie eine ID an, die für Ihr Google Cloud Projekt eindeutig ist.
- Wählen Sie im Drop-down-Menü Cluster die Option
example-clusteraus. - Wählen Sie als Jobtyp die Option Spark aus.
- Geben Sie im Feld Hauptklasse oder JAR-Datei
org.apache.spark.examples.SparkPiein. - Geben Sie im Feld JAR-Dateien
file:///usr/lib/spark/examples/jars/spark-examples.jarein. Geben Sie im Feld Argumente den Wert
1000ein, um die Anzahl der Aufgaben festzulegen.Klicken Sie auf Senden.
Ihr Job wird auf der Seite Jobdetails angezeigt. Der Jobstatus ist Wird ausgeführt oder Wird gestartet und ändert sich nach dem Einreichen zu Erfolgreich.
Wenn Sie das Scrollen in der Ausgabe vermeiden möchten, klicken Sie auf Zeilenumbruch: aus. Die Ausgabe sieht etwa so aus:
Pi is roughly 3.1416759514167594
Klicken Sie auf den Tab Konfiguration, um Jobdetails aufzurufen.
- Klicken Sie im Dataproc-Navigationsmenü auf Cluster.
- Klicken Sie in der Liste der Cluster auf
example-cluster. Klicken Sie auf der Seite Clusterdetails auf den Tab Konfiguration.
Die Clustereinstellungen werden angezeigt.
Klicken Sie auf Bearbeiten.
Geben Sie im Feld Worker-Knoten den Wert
5ein.Klicken Sie auf Speichern.
- Wenn Sie den Cluster löschen möchten, klicken Sie auf der Seite Clusterdetails für
example-clusterauf Löschen. - Klicken Sie auf Löschen, um zu bestätigen, dass Sie den Cluster löschen möchten.
- Probieren Sie diese Kurzanleitung mit anderen Tools aus:
- Robuste Firewallregeln beim Erstellen eines Projekts generieren
- Informationen, wie Sie einen Spark-Scala-Job schreiben und ausführen
Erforderliche Rollen
Für die Ausführung der Beispiele auf dieser Seite sind bestimmte IAM-Rollen erforderlich. Je nach Organisationsrichtlinien wurden diese Rollen möglicherweise bereits gewährt. Informationen zum Prüfen von Rollenzuweisungen finden Sie unter Müssen Sie Rollen zuweisen?.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Nutzerrollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen eines Dataproc-Clusters benötigen:
Dienstkontorolle
Damit das Compute Engine-Standarddienstkonto die erforderlichen Berechtigungen zum Erstellen eines Dataproc-Clusters hat, bitten Sie Ihren Administrator, dem Compute Engine-Standarddienstkonto die IAM-Rolle Dataproc-Worker (roles/dataproc.worker) für das Projekt zuzuweisen.
Cluster erstellen
Spark-Job senden
Senden Sie einen Spark-Job, der einen Wert für Pi schätzt:
Cluster aktualisieren
So aktualisieren Sie Ihren Cluster, indem Sie die Anzahl der Worker-Instanzen ändern:
Der Cluster wurde aktualisiert. Verwenden Sie das gleiche Verfahren, um die Anzahl der Worker-Knoten auf den ursprünglichen Wert zu reduzieren.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden: