Managed Service for Apache Spark mit verwalteten Notebooks verwenden
Auf dieser Seite wird erläutert, wie Sie mithilfe von Managed Service for Apache Spark eine Notebook-Datei auf serverlosem Spark in einer von Vertex AI Workbench verwalteten Notebook-Instanz ausführen.
Die Instanz Ihrer verwalteten Notebooks kann den Code einer Notebookdatei senden, um sie auf dem Managed Service for Apache Spark-Dienst auszuführen. Der Dienst führt den Code auf einer verwalteten Computing-Infrastruktur aus, die Ressourcen automatisch nach Bedarf skaliert. Daher müssen Sie keinen eigenen Cluster bereitstellen und verwalten.
Managed Service for Apache Spark-Gebühren gelten nur für den Zeitpunkt, an dem die Arbeitslast ausgeführt wird.
Voraussetzungen
Informationen zum Ausführen einer Notebook-Datei auf Managed Service for Apache Spark finden Sie in den folgenden Anforderungen.
Ihre Managed Service for Apache Spark-Sitzung muss in derselben Region wie Ihre verwaltete Notebook-Instanz ausgeführt werden.
Die Einschränkung „OS-Login erforderlich“ (
constraints/compute.requireOsLogin) darf für Ihr Projekt nicht aktiviert sein. Siehe OS Login in einer Organisation verwalten.Zum Ausführen einer Notebook-Datei in Managed Service for Apache Spark, müssen Sie ein Dienstkonto mit bestimmten Berechtigungen bereitstellen. Sie können diese Berechtigungen dem Standarddienstkonto erteilen oder ein benutzerdefiniertes Dienstkonto bereitstellen. Informationen dazu finden Sie im Abschnitt „Berechtigungen“ auf dieser Seite.
Ihre Managed Service for Apache Spark-Sitzung verwendet ein VPC-Netzwerk (Virtual Private Cloud), um Arbeitslasten auszuführen. Das VPC-Subnetzwerk muss bestimmte Anforderungen erfüllen. Informationen dazu finden Sie unter Managed Service for Apache Spark for Spark-Netzwerkkonfiguration.
Berechtigungen
Damit das Dienstkonto die erforderlichen
Berechtigungen zum Ausführen einer Notebookdatei auf Managed Service for Apache Spark hat,
bitten Sie Ihren Administrator, dem
Dataproc-Editor (roles/dataproc.editor)
IAM-Rolle für Ihr Projekt zuzuweisen.
Diese vordefinierte Rolle enthält die Berechtigungen, die zum Ausführen einer Notebook-Datei auf Managed Service for Apache Spark erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen , um die notwendigen Berechtigungen anzuzeigen, die erforderlich sind:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um eine Notebook-Datei auf Managed Service for Apache Spark auszuführen:
-
dataproc.agents.create -
dataproc.agents.delete -
dataproc.agents.get -
dataproc.agents.update -
dataproc.session.create -
dataproc.sessions.get -
dataproc.sessions.list -
dataproc.sessions.terminate -
dataproc.sessions.delete -
dataproc.tasks.lease -
dataproc.tasks.listInvalidatedLeases -
dataproc.tasks.reportStatus
Ihr Administrator kann dem Dienstkonto möglicherweise auch diese Berechtigungen mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erteilen.
Hinweis
- Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks, Vertex AI, and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Notebooks, Vertex AI, and Managed Service for Apache Spark APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.- Falls noch nicht geschehen, konfigurieren Sie ein VPC-Netzwerk, das die unter Managed Service for Apache Spark Netzwerkkonfiguration aufgeführten Anforderungen erfüllt.
JupyterLab öffnen
Rufen Sie in der Google Cloud Console die Seite Verwaltete Notebooks auf.
Klicken Sie neben dem Namen der verwalteten Notebook-Instanz auf JupyterLab öffnen.
Managed Service for Apache Spark-Sitzung starten
Gehen Sie folgendermaßen vor, um eine Managed Service for Apache Spark-Sitzung zu starten.
Wählen Sie auf der JupyterLab-Oberfläche Ihrer verwalteten Notebook-Instanz den Tab Launcher und dann Serverless Spark aus. Wenn der Tab Launcher nicht geöffnet ist, wählen Sie Datei > Neuer Launcher aus, um ihn zu öffnen.
Das Dialogfeld Serverless Spark-Sitzung erstellen wird angezeigt.
Geben Sie im Feld Sitzungsname einen Namen für die Sitzung ein.
Geben Sie unter Ausführungskonfiguration das Dienstkonto ein, das Sie verwenden möchten. Wenn Sie kein Dienstkonto eingeben, verwendet Ihre Sitzung das Compute Engine-Standard Dienstkonto.
Wählen Sie unter Netzwerkkonfiguration das Netzwerk und das Subnetzwerk eines Netzwerks aus, das die Anforderungen erfüllt, die unter Managed Service for Apache Spark Netzwerkkonfiguration aufgeführt sind.
Klicken Sie auf Erstellen.
Eine neue Notebook-Datei wird geöffnet. Die von Ihnen erstellte Managed Service for Apache Spark-Sitzung ist der Kernel, der den Code Ihrer Notebook-Datei ausführt.
Code auf Managed Service for Apache Spark und anderen Kerneln ausführen
Fügen Sie der neuen Notebookdatei Code hinzu und führen Sie den Code aus.
Wenn Sie Code auf einem anderen Kernel ausführen möchten, ändern Sie den Kernel.
Wenn Sie den Code für Ihre Managed Service for Apache Spark-Sitzung noch einmal ausführen möchten, ändern Sie den Kernel wieder in den Managed Service for Apache Spark-Kernel.
Managed Service for Apache Spark-Sitzung beenden
Sie können eine Managed Service for Apache Spark-Sitzung auf der JupyterLab-Oberfläche oder in der Google Cloud Console beenden. Der Code in Ihrer Notebookdatei wird beibehalten.
JupyterLab
Schließen Sie in JupyterLab die Notebookdatei, die beim Erstellen der Managed Service for Apache Spark-Sitzung erstellt wurde.
Klicken Sie im angezeigten Dialogfeld auf Sitzung beenden.
Google Cloud Console
Rufen Sie in der Google Cloud Console die Dataproc-Sitzungen Seite auf.
Wählen Sie die Sitzung aus, die Sie beenden möchten, und klicken Sie dann auf Beenden.
Managed Service for Apache Spark-Sitzung löschen
Sie können eine Managed Service for Apache Spark-Sitzung mit der Google Cloud Console löschen. Der Code in Ihrer Notebookdatei wird beibehalten.
Rufen Sie in der Google Cloud Console die Dataproc-Sitzungen Seite auf.
Wählen Sie die Sitzungen aus, die Sie löschen möchten, und klicken Sie dann auf Löschen.
Nächste Schritte
- Weitere Informationen zu Managed Service for Apache Spark.