Cluster mit der Google Cloud Console erstellen

Auf dieser Seite erfahren Sie, wie Sie mit der Google Cloud Console einen Managed Service for Apache Spark-Cluster erstellen, einen einfachen Apache Spark -Job im Cluster ausführen und die Anzahl der Worker im Cluster ändern.


Eine detaillierte Anleitung dazu finden Sie direkt in der Google Cloud Console. Klicken Sie dazu einfach auf Anleitung:

Anleitung


Hinweis

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie noch kein Google Cloud-Konto haben, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that you have the permissions required to complete this guide.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that you have the permissions required to complete this guide.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataproc API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

Erforderliche Rollen

Bestimmte IAM-Rollen sind erforderlich, um die Beispiele auf dieser Seite auszuführen. Je nach Organisationsrichtlinien wurden diese Rollen möglicherweise bereits gewährt. Informationen zum Prüfen von Rollenzuweisungen finden Sie unter Müssen Sie Rollen zuweisen?.

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Nutzerrollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen eines Managed Service for Apache Spark-Clusters benötigen:

Dienstkontorolle

Damit das Compute Engine-Standarddienstkonto die erforderlichen Berechtigungen zum Erstellen eines Managed Service for Apache Spark-Clusters hat, bitten Sie Ihren Administrator, dem Compute Engine-Standarddienstkonto die IAM-Rolle Dataproc-Worker (roles/dataproc.worker) für das Projekt zuzuweisen.

Cluster erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Cluster für Managed Service for Apache Spark auf.

    Zu den Clustern

  2. Klicken Sie auf Cluster erstellen.

  3. Klicken Sie im Dialogfeld Dataproc-Cluster erstellen in der Zeile Cluster in Compute Engine auf Erstellen.

  4. Geben Sie im Feld Clustername example-cluster ein.

  5. Wählen Sie in den Listen Region und Zone eine Region und eine Zone aus.

    Wählen Sie eine Region aus (z. B. us-east1 oder europe-west1), um Ressourcen wie VM-Instanzen (virtuelle Maschinen) und Cloud Storage- und Metadaten-Speicherorte, die von Managed Service for Apache Spark verwendet werden, in der Region zu isolieren. Weitere Informationen finden Sie unter Verfügbare Regionen und Zonen und Clusterregion.

  6. Verwenden Sie für alle anderen Optionen die Standardeinstellungen.

  7. Klicken Sie auf Erstellen, um den Cluster zu erstellen.

    Der neue Cluster wird in einer Liste auf der Seite Cluster angezeigt. Der Status ist Wird bereitgestellt, bis der Cluster zur Verwendung bereit ist. Anschließend ändert sich der Status zu Wird ausgeführt. Die Bereitstellung des Clusters kann einige Minuten dauern.

Spark-Job senden

Senden Sie einen Spark-Job, der einen Wert für Pi schätzt:

  1. Klicken Sie im Navigationsmenü von Managed Service for Apache Spark auf Jobs.
  2. Klicken Sie auf der Seite Jobs auf Job senden und führen Sie dann die folgenden Schritte aus:

    1. Verwenden Sie die Standardeinstellung im Feld Job-ID oder geben Sie eine ID an, die für Ihr Google Cloud Projekt eindeutig ist.
    2. Wählen Sie im Drop-down-Menü Cluster die Option example-cluster aus.
    3. Wählen Sie für Jobtyp die Option Spark aus.
    4. Geben Sie in das Feld Hauptklasse oder JAR-Datei org.apache.spark.examples.SparkPi ein.
    5. Geben Sie in das Feld JAR-Dateien file:///usr/lib/spark/examples/jars/spark-examples.jar ein.
    6. Geben Sie im Feld Argumente 1000 ein, um die Anzahl der Aufgaben festzulegen.

    7. Klicken Sie auf Senden.

      Ihr Job wird auf der Seite Jobdetails angezeigt. Der Jobstatus ist Wird ausgeführt oder Wird gestartet und ändert sich nach dem Senden zu Erfolgreich.

      Wenn Sie das Scrollen in der Ausgabe vermeiden möchten, klicken Sie auf Zeilenumbruch: Aus. Die Ausgabe sieht etwa so aus:

      Pi is roughly 3.1416759514167594
      

      Klicken Sie auf den Tab Konfiguration, um die Jobdetails aufzurufen.

Cluster aktualisieren

Aktualisieren Sie Ihren Cluster, indem Sie die Anzahl der Worker-Instanzen ändern:

  1. Klicken Sie im Navigationsmenü von Managed Service for Apache Spark auf Cluster.
  2. Klicken Sie in der Liste der Cluster auf example-cluster.
  3. Klicken Sie auf der Seite Clusterdetails auf den Tab Konfiguration.

    Die Clustereinstellungen werden angezeigt.

  4. Klicken Sie auf Bearbeiten.

  5. Geben Sie in das Feld Worker-Knoten 5 ein.

  6. Klicken Sie auf Speichern.

Der Cluster wurde aktualisiert. Verwenden Sie das gleiche Verfahren, um die Anzahl der Worker-Knoten auf den ursprünglichen Wert zu reduzieren.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

  1. Klicken Sie auf der Seite Clusterdetails für example-cluster auf Löschen , um den Cluster zu löschen.
  2. Klicken Sie auf Löschen , um zu bestätigen, dass Sie den Cluster löschen möchten.

Nächste Schritte