Exécuter une analyse génomique dans un notebook JupyterLab sur Dataproc

Ce tutoriel vous explique comment exécuter une analyse génomique à une seule cellule à l'aide de Dask, de NVIDIA RAPIDS et de GPU, que vous pouvez configurer sur Dataproc. Vous pouvez configurer Dataproc pour exécuter Dask avec son programmeur autonome ou avec YARN pour la gestion des ressources.

Ce tutoriel configure Dataproc avec une instance JupyterLab hébergée afin d'exécuter un notebook contenant une analyse génomique à une seule cellule. L'utilisation d'un notebook Jupyter sur Dataproc vous permet de combiner les fonctionnalités interactives de Jupyter avec la mise à l'échelle de la charge de travail activée par Dataproc. Avec Dataproc, vous pouvez faire évoluer vos charges de travail d'une seule à plusieurs machines, que vous pouvez configurer avec autant de GPU que nécessaire.

Ce tutoriel s'adresse aux data scientists et aux chercheurs. Il part du principe que vous connaissez Python et que vous maîtrisez les composants de base suivants :

Objectifs

Créer une instance Dataproc configurée avec des GPU, JupyterLab et des composants Open Source.
Exécuter un notebook sur Dataproc.

Coûts

Dans ce document, vous utilisez les composants facturables de Google Cloudsuivants :

Dataproc

Cloud Storage

GPUs

Vous pouvez obtenir une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.

Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai sans frais.

Une fois que vous avez terminé les tâches décrites dans ce document, supprimez les ressources que vous avez créées pour éviter que des frais vous soient facturés. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Préparer votre environnement

Sélectionnez un emplacement pour vos ressources.
```
REGION=REGION
```

créer un bucket Cloud Storage ;

gcloud storage buckets create gs://BUCKET --location=REGION

Copiez les actions d'initialisation suivantes dans votre bucket.

SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
gcloud storage cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
gcloud storage cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
gcloud storage cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
gcloud storage cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh

Créer un cluster Dataproc avec JupyterLab et des composants Open Source

Créez un cluster Dataproc.

gcloud dataproc clusters create CLUSTER_NAME \
    --region REGION \
    --image-version 2.0-ubuntu18 \
    --master-machine-type n1-standard-32 \
    --master-accelerator type=nvidia-tesla-t4,count=4 \
    --initialization-actions
BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
\
    --initialization-action-timeout=60m \
    --metadata
gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
    --optional-components JUPYTER \
    --enable-component-gateway \
    --single-node

Le cluster possède les propriétés suivantes :

--region : région où se trouve votre cluster.
--image-version : 2.0-ubuntu18, version de l'image de cluster
--master-machine-type : n1-standard-32, type de machine principal.
--master-accelerator : type et nombre de GPU sur le nœud principal, quatre GPU nvidia-tesla-t4.
--initialization-actions : chemins d'accès Cloud Storage aux scripts d'installation qui installent les pilotes de GPU, Dask, RAPIDS et les dépendances supplémentaires.
--initialization-action-timeout : délai avant expiration des actions d'initialisation.
--metadata : transmis aux actions d'initialisation pour configurer le cluster avec des pilotes de GPU NVIDIA, le programmeur autonome pour Dask et la version RAPIDS 21.06.
--optional-components : configure le cluster avec le composant Jupyter facultatif.
--enable-component-gateway : permet d'accéder aux interfaces utilisateur Web du cluster.
--single-node : configure le cluster en tant que nœud unique (aucun nœud de calcul).

Accéder au notebook Jupyter

Ouvrez la page Clusters dans la console Dataproc Google Cloud .
Ouvrir la page "Clusters"
Cliquez sur votre cluster, puis sur l'onglet Interfaces Web.
Cliquez sur JupyterLab.
Ouvrez un nouveau terminal dans JupyterLab.

Clonez le dépôt clara-parabricks/rapids-single-cell-examples et examinez la branche dataproc/multi-gpu.

git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
git checkout dataproc/multi-gpu

Dans JupyterLab, accédez au dépôt rapids-single-cell-examples/notebooks et ouvrez le notebook Jupyter 1M_brain_gpu_analysis_uvm.ipynb.
Pour supprimer tous les éléments de sortie du notebook, sélectionnez Modifier > Supprimer tous les éléments de sortie.
Lisez les instructions dans les cellules du notebook. Le notebook utilise Dask et RAPIDS sur Dataproc pour vous guider dans un workflow à une seule cellule RNA-seq sur un million de cellules, y compris le traitement et la visualisation des données. Pour en savoir plus, consultez la page Accélérer l'analyse génomique à une seule cellule à l'aide de RAPIDS.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer le projet

Attention : La suppression d'un projet entraîne les effets décrits ci-dessous :

Tout le contenu du projet est supprimé. Si vous avez utilisé un projet existant pour les tâches décrites dans ce document et que vous le supprimez, vous supprimerez également tout autre travail effectué dans le projet.
Les ID de projets personnalisés sont perdus. Lorsque vous avez créé ce projet, vous avez peut-être créé un ID de projet personnalisé que vous souhaitez utiliser à l'avenir. Pour conserver les URL qui utilisent l'ID de projet, telle qu'une URL appspot.com, supprimez les ressources sélectionnées dans le projet au lieu de supprimer l'ensemble du projet.

Si vous envisagez d'explorer plusieurs architectures, tutoriels et guides de démarrage rapide, réutiliser des projets peut vous aider à ne pas dépasser les limites de quotas des projets.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Supprimer des ressources individuelles

Supprimez votre cluster Dataproc.

gcloud dataproc clusters delete cluster-name \
    --region=region

Supprimer le bucket :
```
gcloud storage buckets delete BUCKET_NAME
```
Important : Votre bucket doit être vide afin d'être supprimé.

Étapes suivantes

En savoir plus sur Dataproc
Explorez des architectures de référence, des schémas, des tutoriels et des bonnes pratiques. Consultez notre Centre d'architecture cloud.