Esegui un'analisi genomica in un blocco note JupyterLab su Dataproc

Questo tutorial mostra come eseguire un'analisi genomica a cella singola utilizzando Dask, NVIDIA RAPIDS e GPU, che puoi configurare su Dataproc. Puoi configurare Dataproc per eseguire Dask con il suo scheduler autonomo o con YARN per la gestione delle risorse.

Questo tutorial configura Dataproc con un'istanza JupyterLab ospitata per eseguire un notebook con un'analisi genomica a cella singola. L'utilizzo di un notebook Jupyter su Dataproc consente di combinare le funzionalità interattive di Jupyter con lo scaling del carico di lavoro abilitato da Dataproc. Con Dataproc, puoi scalare i tuoi workload da una a più macchine, che puoi configurare con tutte le GPU di cui hai bisogno.

Questo tutorial è rivolto a data scientist e ricercatori. Presuppone che tu abbia esperienza con Python e una conoscenza di base di quanto segue:

Obiettivi

Crea un'istanza Dataproc configurata con GPU, JupyterLab e componenti open source.
Esegui un notebook su Dataproc.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Dataproc

Cloud Storage

GPUs

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova senza costi.

Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per saperne di più, consulta Esegui la pulizia.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

prepara l'ambiente

Seleziona una posizione per le tue risorse.
```
REGION=REGION
```

Creare un bucket Cloud Storage.

gcloud storage buckets create gs://BUCKET --location=REGION

Copia le seguenti azioni di inizializzazione nel tuo bucket.

SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
gcloud storage cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
gcloud storage cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
gcloud storage cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
gcloud storage cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh

Crea un cluster Dataproc con JupyterLab e componenti open source

Crea un cluster Dataproc.

gcloud dataproc clusters create CLUSTER_NAME \
    --region REGION \
    --image-version 2.0-ubuntu18 \
    --master-machine-type n1-standard-32 \
    --master-accelerator type=nvidia-tesla-t4,count=4 \
    --initialization-actions
BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
\
    --initialization-action-timeout=60m \
    --metadata
gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
    --optional-components JUPYTER \
    --enable-component-gateway \
    --single-node

Il cluster ha le seguenti proprietà:

--region: la regione in cui si trova il cluster.
--image-version: 2.0-ubuntu18, la versione dell'immagine del cluster
--master-machine-type: n1-standard-32, il tipo di macchina principale.
--master-accelerator: il tipo e il numero di GPU sul nodo principale, quattro GPU nvidia-tesla-t4.
--initialization-actions: i percorsi di Cloud Storage agli script di installazione che installano i driver della GPU, Dask, RAPIDS e dipendenze aggiuntive.
--initialization-action-timeout: il timeout per le azioni di inizializzazione.
--metadata: passato alle azioni di inizializzazione per configurare il cluster con i driver GPU NVIDIA, lo scheduler autonomo per Dask e RAPIDS versione 21.06.
--optional-components: configura il cluster con il componente facoltativo Jupyter.
--enable-component-gateway: consente l'accesso alle UI web sul cluster.
--single-node: configura il cluster come un singolo nodo (nessun worker).

Accedere al notebook Jupyter

Apri la pagina Cluster nella console Google Cloud Dataproc.
Apri la pagina Cluster
Fai clic sul cluster e poi sulla scheda Interfacce web.
Fai clic su JupyterLab.
Apri un nuovo terminale in JupyterLab.

Clona il clara-parabricks/rapids-single-cell-examples repository e controlla il branch dataproc/multi-gpu.

git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
git checkout dataproc/multi-gpu

In JupyterLab, vai al repository rapids-single-cell-examples/notebooks e apri il notebook Jupyter 1M_brain_gpu_analysis_uvm.ipynb.
Per cancellare tutti gli output nel notebook, seleziona Modifica > Cancella tutti gli output.
Leggi le istruzioni nelle celle del notebook. Il notebook utilizza Dask e RAPIDS su Dataproc per guidarti in un flusso di lavoro RNA-seq a cella singola su 1 milione di cellule, inclusi l'elaborazione e la visualizzazione dei dati. Per saperne di più, consulta Accelerating Single Cell Genomic Analysis using RAPIDS.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Elimina il progetto

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per, le attività descritte in questo documento, eliminerai anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Elimina singole risorse

Elimina il cluster Dataproc.

gcloud dataproc clusters delete cluster-name \
    --region=region

Elimina il bucket:
```
gcloud storage buckets delete BUCKET_NAME
```
Importante:il bucket deve essere vuoto prima di poterlo eliminare.

Passaggi successivi

Scopri di più su Dataproc.
Esplora architetture di riferimento, diagrammi, tutorial e best practice. Consulta il nostro Cloud Architecture Center.