Genomanalyse in einem JupyterLab-Notebook in Dataproc ausführen

In dieser Anleitung erfahren Sie, wie Sie Genomanalysen an Einzelzellen mithilfe von Dask, NVIDIA RAPIDS und GPUs ausführen, die Sie mit Dataproc konfigurieren können. Dataproc lässt sich so konfigurieren, dass Dask entweder mit seinem eigenständigen Planer oder mit YARN für die Ressourcenverwaltung ausgeführt wird.

In dieser Anleitung wird Dataproc mit einer gehosteten JupyterLab-Instanz konfiguriert, um ein Notebook mit einer Genomanalyse an Einzelzellen auszuführen. Mit einem Jupyter-Notebook in Dataproc können Sie die interaktiven Funktionen von Jupyter mit der Arbeitslastskalierung von Dataproc kombinieren. Mit Dataproc haben Sie die Möglichkeit, Ihre Arbeitslasten von einer auf viele Maschinen zu skalieren. Diese lassen sich mit beliebig vielen GPUs konfigurieren.

Diese Anleitung richtet sich an Data Scientists und Forscher. Dabei wird davon ausgegangen, dass Sie mit Python vertraut sind und Grundkenntnisse zu folgenden Themen haben:

Ziele

Sie erstellen eine Dataproc-Instanz, die mit GPUs, JupyterLab und Open-Source-Komponenten konfiguriert ist.
Sie führen ein Notebook in Dataproc aus.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Dataproc

Cloud Storage

GPUs

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Nutzern von Google Cloud steht möglicherweise ein kostenloser Testzeitraum zur Verfügung.

Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.

Hinweis

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Umgebung vorbereiten

Wählen Sie einen Standort für Ihre Ressourcen aus.
```
REGION=REGION
```

Cloud Storage-Bucket erstellen

gcloud storage buckets create gs://BUCKET --location=REGION

Kopieren Sie die folgenden Initialisierungsaktionen in Ihren Bucket.

SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
gcloud storage cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
gcloud storage cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
gcloud storage cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
gcloud storage cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh

Dataproc-Cluster mit JupyterLab und Open-Source-Komponenten erstellen

Erstellen Sie einen Dataproc-Cluster.

gcloud dataproc clusters create CLUSTER_NAME \
    --region REGION \
    --image-version 2.0-ubuntu18 \
    --master-machine-type n1-standard-32 \
    --master-accelerator type=nvidia-tesla-t4,count=4 \
    --initialization-actions
BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
\
    --initialization-action-timeout=60m \
    --metadata
gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
    --optional-components JUPYTER \
    --enable-component-gateway \
    --single-node

Der Cluster hat die folgenden Attribute:

--region: Die Region, in der sich der Cluster befindet.
--image-version: 2.0-ubuntu18, die Cluster-Image-Version.
--master-machine-type: n1-standard-32, der Hauptmaschinentyp.
--master-accelerator: Der Typ und die Anzahl der GPUs auf dem Hauptknoten, vier nvidia-tesla-t4-GPUs.
--initialization-actions: Die Cloud Storage-Pfade zu den Installationsskripts, die GPU-Treiber, Dask, RAPIDS und zusätzliche Abhängigkeiten installieren.
--initialization-action-timeout: Das Zeitlimit für die Initialisierungsaktionen.
--metadata: Wird an die Initialisierungsaktionen übergeben, um den Cluster mit NVIDIA GPU-Treibern, mit dem eigenständigen Planer für Dask und mit der RAPIDS-Version 21.06 zu konfigurieren.
--optional-components: Konfiguriert den Cluster mit der optionalen Jupyter-Komponente.
--enable-component-gateway: Ermöglicht den Zugriff auf Web-UIs im Cluster.
--single-node: Konfiguriert den Cluster als einzelnen Knoten (keine Worker).

Auf Jupyter-Notebook zugreifen

Öffnen Sie in der Dataproc Google Cloud Console die Seite Cluster.
Zur Seite „Cluster“
Klicken Sie auf den Cluster und dann auf den Tab Weboberflächen.
Klicken Sie auf JupyterLab.
Öffnen Sie in JupyterLab ein neues Terminal.
Klonen Sie das Repository clara-parabricks/rapids-single-cell-examples und prüfen Sie den Zweig dataproc/multi-gpu.
```
git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
git checkout dataproc/multi-gpu
```
Wechseln Sie in JupyterLab zum Repository rapids-single-cell-examples/notebooks und öffnen Sie das Jupyter-Notebook 1M_brain_gpu_analysis_uvm.ipynb.
Wählen Sie Bearbeiten > Alle Ausgaben löschen aus, um alle Ausgaben im Notebook zu löschen.
Lesen Sie die Anleitung in den Zellen des Notebooks. Das Notebook verwendet Dask und RAPIDS in Dataproc, um Sie durch einen Workflow für eine einzellige RNA-Sequenzierung für 1 Million Zellen zu führen, einschließlich Verarbeitung und Visualisierung der Daten. Weitere Informationen finden Sie unter Genomanalysen an Einzelzellen mit RAPIDS beschleunigen.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, zum Beispiel eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, anstatt das gesamte Projekt.

Wenn Sie weitere Architekturen, Tutorials oder Kurzanleitungen nutzen möchten, können Sie vorhandene Projekte wiederverwenden und somit vermeiden, dass Projektkontingente überschritten werden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Einzelne Ressourcen löschen

Löschen Sie Ihren Dataproc-Cluster.

gcloud dataproc clusters delete cluster-name \
    --region=region

Löschen Sie den Bucket:
```
gcloud storage buckets delete BUCKET_NAME
```
Wichtig: Der Bucket muss leer sein, bevor Sie ihn löschen können.

Nächste Schritte

Dataproc
Referenzarchitekturen, Diagramme, Anleitungen und Best Practices entdecken Weitere Informationen zu Cloud Architecture Center