Ejecuta un análisis de genómica en un notebook de JupyterLab en Dataproc

En este instructivo, se muestra cómo ejecutar un análisis de genómica de una sola celda mediante Dask, NVIDIA RAPIDS y GPU, que puedes configurar en Dataproc Puedes configurar Dataproc a fin de ejecutar Dack con su programador independiente o con YARN para la administración de recursos.

En este instructivo, se configura Dataproc con una instancia de JupyterLab alojada para ejecutar un notebook con un análisis de genómica de una sola celda. El uso de un notebook de Jupyter en Dataproc te permite combinar las funciones interactivas de Jupyter con el escalamiento de carga de trabajo que habilita Dataproc. Con Dataproc, puedes escalar horizontalmente tus cargas de trabajo desde una hasta muchas máquinas, las cuales puedes configurar con tantas GPU como necesites.

Este instructivo está dirigido a investigadores y científicos de datos. Se supone que tienes experiencia con Python y que tienes conocimientos básicos sobre lo siguiente:

Objetivos

Crear una instancia de Dataproc configurada con GPU, JupyterLab y componentes de código abierto.
Ejecutar un notebook en Dataproc

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

Dataproc

Cloud Storage

GPUs

Para obtener una estimación de costos en función del uso previsto, usa la calculadora de precios.

Es posible que los usuarios de Google Cloud nuevos cumplan con los requisitos para acceder a una prueba gratuita.

Cuando completes las tareas que se describen en este documento, podrás borrar los recursos que creaste para evitar que se te siga facturando. Para obtener más información, consulta Realiza una limpieza.

Antes de comenzar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the API

Prepara el entorno

Selecciona una ubicación para tus recursos.
```
REGION=REGION
```

Crear un bucket de Cloud Storage

gcloud storage buckets create gs://BUCKET --location=REGION

Copia las siguientes acciones de inicialización en tu bucket.

SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
gcloud storage cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
gcloud storage cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
gcloud storage cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
gcloud storage cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh

Crea un clúster de Dataproc con JupyterLab y componentes de código abierto

Crea un clúster de Dataproc.

gcloud dataproc clusters create CLUSTER_NAME \
    --region REGION \
    --image-version 2.0-ubuntu18 \
    --master-machine-type n1-standard-32 \
    --master-accelerator type=nvidia-tesla-t4,count=4 \
    --initialization-actions
BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
\
    --initialization-action-timeout=60m \
    --metadata
gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
    --optional-components JUPYTER \
    --enable-component-gateway \
    --single-node

El clúster tiene las siguientes propiedades:

--region: Es la región en la que se encuentra el clúster.
--image-version: 2.0-ubuntu18, es la versión con imágenes del clúster.
--master-machine-type: n1-standard-32, es el tipo de máquina principal.
--master-accelerator: Es el tipo y el recuento de GPU en el nodo principal, cuatro GPU nvidia-tesla-t4.
--initialization-actions: Son las rutas de Cloud Storage a las secuencias de comandos de instalación que instalan controladores de GPU, Dask, RAPIDS y dependencias adicionales.
--initialization-action-timeout: Es el tiempo de espera para las acciones de inicialización.
--metadata: se pasa a las acciones de inicialización a fin de configurar el clúster con los controladores de GPU de NVIDIA, el programador independiente para Dask y la versión de 21.06 de RAPIDS.
--optional-components: Configura el clúster con el componente opcional de Jupyter.
--enable-component-gateway: Permite el acceso a las IU web en el clúster.
--single-node: Configura el clúster como un solo nodo (sin trabajadores).

Accede al notebook de Jupyter

Abre la página Clústeres en la consola de Google Cloud Dataproc.
Abrir la página Clústeres
Haz clic en tu clúster y, luego, en la pestaña Interfaces web.
Haz clic en JupyterLab.
Abre una new terminal en JupyterLab.

Clona el repositorio clara-parabricks/rapids-single-cell-examples y verifica la rama dataproc/multi-gpu.

git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
git checkout dataproc/multi-gpu

En JupyterLab, navega al repositorio rapids-single-cell-examples/notebooks y abre el Notebook de Jupyter 1M_brain_gpu_analysis_uvm.ipynb.
Para borrar todos los resultados del notebook, selecciona Edit > Clear All Outputs.
Lee las instrucciones en las celdas del notebook. El notebook usa Dack y RAPIDS en Dataproc para guiarte a través de un flujo de trabajo de RNA-seq de una sola celda en 1 millón de celdas, incluido el procesamiento y la visualización de los datos. Para obtener más información, consulta Acelera el análisis genómico de una sola celda mediante RAPIDS.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

Precaución: Borrar un proyecto tiene las siguientes consecuencias:

Se borra todo su contenido. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los IDs personalizados de los proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID personalizado del proyecto que desees utilizar en el futuro. Para conservar las URLs que usan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto, en lugar de todo el proyecto.

Si planeas explorar varios instructivos, arquitecturas o guías de inicio rápido, reutilizar proyectos puede ser útil para no exceder los límites de cuota de los proyectos.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Borra los recursos individuales

Borra tu clúster de Dataproc.

gcloud dataproc clusters delete cluster-name \
    --region=region

Borra el depósito
```
gcloud storage buckets delete BUCKET_NAME
```
Importante: Tu bucket debe estar vacío antes de que puedas borrarlo.

¿Qué sigue?

Obtén más información sobre Dataproc.
Explora las arquitecturas de referencia, los diagramas, los instructivos y las prácticas recomendadas. Consulta nuestro Cloud Architecture Center.