"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Executar uma análise genômica em um notebook JupyterLab

Neste tutorial, mostramos como executar uma análise genômica de célula única usando Dask, NVIDIA RAPIDS e GPUs, que podem ser configuradas no Serviço gerenciado para Apache Spark. É possível configurar o Serviço Gerenciado para Apache Spark para executar o Dask com o programador autônomo ou com o YARN para gerenciamento de recursos.

Neste tutorial, o Serviço Gerenciado para Apache Spark é configurado com uma instância hospedada do JupyterLab para executar um notebook com análise genômica de célula única. O uso de um notebook do Jupyter no Serviço Gerenciado para Apache Spark permite combinar os recursos interativos do Jupyter com o escalonamento de carga de trabalho permitido pelo Serviço Gerenciado para Apache Spark. Com o Serviço Gerenciado para Apache Spark, é possível escalonar horizontalmente suas cargas de trabalho de uma para várias máquinas, que você pode configurar com quantas GPUs precisar.

Este tutorial é destinado a cientistas e pesquisadores de dados. Ele pressupõe que você tenha experiência com Python e tenha conhecimento básico dos seguintes tópicos:

Objetivos

Crie uma instância do Serviço Gerenciado para Apache Spark configurada com GPUs, JupyterLab e componentes de código aberto.
Execute um notebook no Serviço Gerenciado para Apache Spark.

Custos

Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:

Managed Service for Apache Spark

Cloud Storage

GPUs

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.

Novos usuários do Google Cloud podem estar qualificados para um teste sem custo financeiro.

Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Para mais informações, consulte Limpeza.

Antes de começar

No console do Google Cloud , na página do seletor de projetos, selecione ou crie um projeto do Google Cloud .
Funções necessárias para selecionar ou criar um projeto
- Selecionar um projeto: não é necessário um papel específico do IAM para selecionar um projeto. Você pode escolher qualquer projeto em que tenha recebido um papel.
- Criar um projeto: para criar um projeto, é necessário ter o papel de Criador de projetos (roles/resourcemanager.projectCreator), que contém a permissão resourcemanager.projects.create. Saiba como conceder papéis.
Observação: se você não pretende manter os recursos criados neste procedimento, crie um projeto novo em vez de selecionar um que já existe. Depois de concluir essas etapas, é possível excluir o projeto. Para fazer isso, basta remover todos os recursos associados a ele.

Acessar o seletor de projetos
Verifique se o faturamento está ativado para o projeto do Google Cloud .
Ative a API Dataproc.
Funções necessárias para ativar APIs
Para ativar APIs, você precisa da permissão serviceusage.services.enable. Se você criou o projeto, provavelmente já tem essa permissão com o papel de Proprietário (roles/owner). Caso contrário, é possível receber essa permissão com o papel de Administrador do Service Usage (roles/serviceusage.serviceUsageAdmin). Saiba como conceder papéis.
Ativar a API

Preparar o ambiente

Selecione um local para seus recursos.
```
REGION=REGION
```

Criar um bucket do Cloud Storage.

gcloud storage buckets create gs://BUCKET --location=REGION

Copie as seguintes ações de inicialização para o bucket.

SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
gcloud storage cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
gcloud storage cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
gcloud storage cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
gcloud storage cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh

Criar um cluster do Serviço Gerenciado para Apache Spark com o JupyterLab e componentes de código aberto

Crie um cluster do Serviço Gerenciado para Apache Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region REGION \
    --image-version 2.0-ubuntu18 \
    --master-machine-type n1-standard-32 \
    --master-accelerator type=nvidia-tesla-t4,count=4 \
    --initialization-actions
BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
\
    --initialization-action-timeout=60m \
    --metadata
gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
    --optional-components JUPYTER \
    --enable-component-gateway \
    --single-node

O cluster tem as seguintes propriedades:

--region: a região em que o cluster está localizado.
--image-version: 2.0-ubuntu18, a versão de imagem do cluster.
--master-machine-type: n1-standard-32, o tipo de máquina principal.
--master-accelerator: o tipo e a contagem de GPUs no nó principal, quatro GPUs nvidia-tesla-t4.
--initialization-actions: os caminhos do Cloud Storage para os scripts de instalação que instalam drivers de GPU, Dask, RAPIDS e dependências extras.
--initialization-action-timeout: o tempo limite das ações de inicialização.
--metadata: transmitido para as ações de inicialização para configurar o cluster com drivers de GPU NVIDIA, o programador autônomo do Dask e a versão RAPIDS 21.06.
--optional-components: configura o cluster com o componente opcional Jupyter.
--enable-component-gateway: permite o acesso a IUs da Web no cluster.
--single-node: configura o cluster como um único nó (sem workers).

Acessar o Jupyter Notebook

Abra a página Clusters no console do Serviço Gerenciado para Apache Spark Google Cloud .
Abrir a página "Clusters"
Clique no cluster e na guia Interfaces da Web.
Clique em JupyterLab.
Abra um novo terminal no JupyterLab.

Clone o repositório clara-parabricks/rapids-single-cell-examples e confira a ramificação managed-spark/multi-gpu.

git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
git checkout managed-spark/multi-gpu

No JupyterLab, acesse o repositório rapids-single-cell-examples/notebooks e abra o notebook do Jupyter 1M_brain_gpu_analysis_uvm.ipynb.
Para limpar todas as saídas no notebook, selecione Editar > Limpar todas as saídas.
Leia as instruções nas células do notebook. O notebook usa o Dask e o RAPIDS no Serviço Gerenciado para Apache Spark para orientar você em um fluxo de trabalho de RNA-seq de célula única em 1 milhão de células, incluindo o processamento e a visualização de dados. Para saber mais, consulte Aceleração da análise genômica de célula única usando RAPIDS.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Excluir o projeto

No console Google Cloud , acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Excluir recursos individuais

Exclua o cluster do Serviço Gerenciado para Apache Spark.

gcloud dataproc clusters delete cluster-name \
    --region=region

Excluir o bucket:
```
gcloud storage buckets delete BUCKET_NAME
```
Importante:o bucket precisa estar vazio para ser excluído.

A seguir

Saiba mais sobre o Serviço Gerenciado para Apache Spark.
Explore arquiteturas de referência, diagramas, tutoriais e práticas recomendadas. Confira o Centro de arquitetura do Cloud .