Mit Dataproc Hub können Sie mithilfe von Vertex AI Workbench und Managed Service for Apache Spark interaktive ML- und Datenverarbeitungsaufgaben mit Jupyter-Notebooks und der Hadoop- und Spark-Umgebung ausführen.
Dataproc Hub-Notebooks sind von Administratoren zusammengestellte Notebooks für einzelne Nutzer, die in einem Managed Service for Apache Spark-JupyterLab-Cluster ausgeführt werden, der im Projekt des Nutzers erstellt wurde.
Dataproc Hub nutzt JupyterHub für folgende Aufgaben:
- Sorgen Sie für mehr Konsistenz in der gesamten Organisation, indem Sie Administratoren die Möglichkeit bieten, ausgewählte Listen mit Notebookvorlagen für verschiedene Datengruppen und ML-Nutzer zu erstellen.
- Beschleunigen Sie die Erstellung von Notebooks, indem Sie Daten und ML-Nutzern vorkonfigurierte Umgebungen bereitstellen, die ihren Software- und Hardwareanforderungen entsprechen.
Dataproc Hub bietet separate Schnittstellen für Administratoren und Nutzer:
- Administratoren verwenden die Seite Dataproc → Workbench → Nutzerverwaltete Notebooks in der Google Cloud Console, um Dataproc Hub-Instanzen zu erstellen. Jede Hub-Instanz enthält eine Reihe von vordefinierten Notebookumgebungen, die von YAML-Clusterkonfigurationsdateien definiert werden.
- Daten- und ML-Nutzer verwenden die Notebooks → Instanzen-UI in derGoogle Cloud -Konsole, um eine vordefinierte Notebookumgebung auszuwählen, um einen Notebook-Server in ihrem Managed Service for Apache Spark-Cluster zu erstellen.
- Nutzer ohne Konsolenzugriff können auf die Dataproc Hub-Instanz zugreifen, um mithilfe der Dataproc Hub-Instanz-URL, die vom Administrator bereitgestellt wurde, einen Managed Service for Apache Spark-Cluster zu erstellen.
Anwendungsfälle für Dataproc Hub:
- Daten- und ML-Nutzer sind in Gruppen mit gemeinsamen Software- und Hardwareanforderungen organisiert. Nutzer können in mehreren Gruppen platziert werden.
- Eingeschränkter Zugriff auf die Managed Service for Apache Spark-Konsole: Nutzer haben keinen Zugriff auf Managed Service for Apache Spark in der Google Cloud Console
Features von Dataproc Hub:
- Vordefinierte Nutzerumgebungen
- Cluster- und Notebook-Isolierung: Die Mitglieder einer Gruppe erhalten keinen einfachen Zugriff auf Cluster und Notebooks von Mitgliedern in anderen Gruppen
Weitere Informationen
- Administratoren: Dataproc Hub konfigurieren
- Nutzer: Dataproc Hub verwenden