„Managed Service for Apache Spark“ ist der neue Name für das Produkt, das früher als „Dataproc on Compute Engine“ (Clusterbereitstellung) und „Google Cloud Serverless for Apache Spark“ (serverlose Bereitstellung) bekannt war.

Dataproc-Hub verwenden

Ziele

Verwenden Sie Dataproc Hub, um eine JupyterLab-Notebook-Umgebung für einen einzelnen Nutzer zu erstellen, die in einem Managed Service for Apache Spark-Cluster ausgeführt wird.
Erstellen Sie ein Notebook und führen Sie einen Spark-Job im Managed Service for Apache Spark-Cluster aus.
Löschen Sie den Cluster und behalten Sie Ihr Notebook in Cloud Storage bei.

Hinweis

Der Administrator muss Ihnen die Berechtigung notebooks.instances.use erteilen (siehe IAM-Identity and Access Management festlegen).

Dataproc JupyterLab-Cluster über Dataproc Hub erstellen

Wählen Sie in der Google Cloud console auf der Dataproc → Workbench Seite den Tab Nutzerverwaltete Notebooks aus.
Klicken Sie in der Zeile, in der die vom Administrator erstellte Dataproc Hub-Instanz aufgeführt ist, auf JupyterLab öffnen.
1. Wenn Sie keinen Zugriff auf die Google Cloud console haben, geben Sie in Ihrem Webbrowser die Dataproc Hub-Instanz-URL ein, die ein Administrator für Sie freigegeben hat.
Wählen Sie auf der Seite Jupyterhub → Dataproc-Optionen eine Clusterkonfiguration und -zone aus. Falls aktiviert, nehmen Sie die gewünschten Anpassungen vor und klicken Sie auf Erstellen.

Nachdem der Managed Service for Apache Spark-Cluster erstellt wurde, werden Sie zur JupyterLab-Oberfläche weitergeleitet, die im Cluster ausgeführt wird.

Notebook erstellen und einen Spark-Job ausführen

Klicken Sie im linken Bereich der JupyterLab-Oberfläche auf GCS (Cloud Storage).
Erstellen Sie über den JupyterLab-Launcher ein PySpark-Notebook.

Der PySpark-Kernel initialisiert einen SparkContext mithilfe der Variable sc. Sie können den SparkContext untersuchen und einen Spark-Job aus dem Notebook ausführen.

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

Benennen Sie das Notebook und speichern Sie es. Das Notebook wird gespeichert und verbleibt in Cloud Storage, nachdem der Managed Service for Apache Spark-Cluster gelöscht wurde.

Dataproc-Cluster herunterfahren

Wählen Sie in der JupyterLab-Oberfläche Datei → Hub-Steuerfeld aus, um die Seite Jupyterhub zu öffnen.

Wenn Sie Managed Service for Apache Spark-Imageversionen 1.4 oder früher verwenden, rufen Sie /hub/home auf, um auf die Seite Jupyterhub zuzugreifen.
Klicken Sie auf Meinen Cluster anhalten , um den JupyterLab-Server herunterzufahren (zu löschen), wodurch der Managed Service for Apache Spark-Cluster gelöscht wird.

Durch Löschen des Servers und Löschen des Clusters wird die Dataproc Hub-Instanz nicht gelöscht. Sie können auf der Seite Jupyterhub (Hub-Steuerfeld) auf Meinen Server starten klicken oder auf der Seite Dataproc → Workbench → Nutzerverwaltete Notebooks in der Google Cloud console den Link JupyterLab öffnen für Ihre Dataproc Hub-Instanz auswählen, um einen weiteren Managed Service for Apache Spark-JupyterLab-Cluster zu konfigurieren und zu erstellen.

Nächste Schritte

Informationen zu Spark- und Jupyter-Notebooks in Dataproc auf GitHub.