"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Esegui un'analisi genomica in un notebook JupyterLab

Questo tutorial mostra come eseguire un'analisi di genomica a cellula singola utilizzando Dask, NVIDIA RAPIDS e GPU, che puoi configurare in Managed Service for Apache Spark. Puoi configurare Managed Service for Apache Spark per eseguire Dask con il suo scheduler autonomo o con YARN per la gestione delle risorse.

Questo tutorial configura Managed Service for Apache Spark con un'istanza di JupyterLab ospitata per eseguire un notebook che include un'analisi di genomica a cellula singola. L'utilizzo di un notebook Jupyter in Managed Service for Apache Spark consente di combinare le funzionalità interattive di Jupyter con la scalabilità dei carichi di lavoro abilitata da Managed Service for Apache Spark. Con Managed Service for Apache Spark, puoi fare lo scale out dei carichi di lavoro da una a più macchine, che puoi configurare con tutte le GPU di cui hai bisogno.

Questo tutorial è rivolto a data scientist e ricercatori. Presuppone che tu abbia esperienza con Python e conoscenze di base su quanto segue:

Obiettivi

Crea un'istanza di Managed Service for Apache Spark configurata con GPU, JupyterLab e componenti open source.
Esegui un notebook in Managed Service for Apache Spark.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Managed Service for Apache Spark

Cloud Storage

GPUs

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi Google Cloud utenti potrebbero avere diritto a una prova senza costi.

Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per saperne di più, consulta Esegui la pulizia.

Prima di iniziare

Nella Google Cloud console, nella pagina di selezione del progetto, seleziona o crea un Google Cloud progetto.
Ruoli richiesti per selezionare o creare un progetto
- Seleziona un progetto: la selezione di un progetto non richiede un ruolo IAM specifico: puoi selezionare qualsiasi progetto su cui ti è stato concesso un ruolo.
- Crea un progetto: per creare un progetto, devi disporre del ruolo Autore progetto (roles/resourcemanager.projectCreator), che contiene l' resourcemanager.projects.create autorizzazione. Scopri come concedere i ruoli.
Nota: se non prevedi di conservare le risorse che crei in questa procedura, crea un progetto invece di selezionarne uno già esistente. Una volta completata questa procedura, puoi eliminare il progetto e tutte le relative risorse.

Vai al selettore di progetti
Verifica che la fatturazione sia attivata per il tuo Google Cloud progetto.
Abilitare l'API Dataproc.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre dell'autorizzazione serviceusage.services.enable. Se hai creato il progetto, probabilmente hai già questa autorizzazione tramite il ruolo Proprietario (roles/owner). In caso contrario, puoi ottenere questa autorizzazione tramite il ruolo Amministratore utilizzo servizi (roles/serviceusage.serviceUsageAdmin). Scopri come concedere i ruoli.
Abilitare l'API

prepara l'ambiente

Seleziona una località per le tue risorse.
```
REGION=REGION
```

Creare un bucket Cloud Storage.

gcloud storage buckets create gs://BUCKET --location=REGION

Copia le seguenti azioni di inizializzazione nel bucket.

SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
gcloud storage cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
gcloud storage cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
gcloud storage cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
gcloud storage cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh

Crea un cluster Managed Service for Apache Spark con JupyterLab e componenti open source

Crea un cluster Managed Service for Apache Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region REGION \
    --image-version 2.0-ubuntu18 \
    --master-machine-type n1-standard-32 \
    --master-accelerator type=nvidia-tesla-t4,count=4 \
    --initialization-actions
BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
\
    --initialization-action-timeout=60m \
    --metadata
gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
    --optional-components JUPYTER \
    --enable-component-gateway \
    --single-node

Il cluster ha le seguenti proprietà:

--region: la regione in cui si trova il cluster.
--image-version: 2.0-ubuntu18, la versione dell'immagine del cluster
--master-machine-type: n1-standard-32, il tipo di macchina principale .
--master-accelerator: il tipo e il numero di GPU sul nodo principale, quattro nvidia-tesla-t4 GPU.
--initialization-actions: i percorsi di Cloud Storage agli script di installazione che installano i driver GPU, Dask, RAPIDS e dipendenze aggiuntive.
--initialization-action-timeout: il timeout per le azioni di inizializzazione.
--metadata: passato alle azioni di inizializzazione per configurare il cluster con i driver GPU NVIDIA, lo scheduler autonomo per Dask e la versione RAPIDS 21.06.
--optional-components: configura il cluster con il componente facoltativo Jupyter.
--enable-component-gateway: consente l'accesso alle UI web sul cluster.
--single-node: configura il cluster come nodo singolo (senza worker).

Accedi al notebook Jupyter

Apri la pagina Cluster nella console Managed Service for Apache Spark Google Cloud .
Apri la pagina Cluster
Fai clic sul cluster e poi sulla scheda Interfacce web.
Fai clic su JupyterLab.
Apri un nuovo terminale in JupyterLab.

Clona il clara-parabricks/rapids-single-cell-examples repository ed estrai il managed-spark/multi-gpu ramo.

git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
git checkout managed-spark/multi-gpu

In JupyterLab, vai al rapids-single-cell-examples/notebooks e apri il notebook Jupyter 1M_brain_gpu_analysis_uvm.ipynb.
Per cancellare tutti gli output nel notebook, seleziona Modifica > Cancella tutti gli output.
Leggi le istruzioni nelle celle del notebook. Il notebook utilizza Dask e RAPIDS in Managed Service for Apache Spark per guidarti in un flusso di lavoro RNA-seq a cellula singola su 1 milione di cellule, inclusi l'elaborazione e la visualizzazione dei dati. Per saperne di più, consulta Accelerating Single Cell Genomic Analysis using RAPIDS.

Libera spazio

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Elimina il progetto

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per, le attività descritte in questo documento, eliminerai anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

Nella Google Cloud console, vai alla pagina Gestisci risorse.
Vai a Gestisci risorse
Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
Nella finestra di dialogo, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.

Elimina singole risorse

Elimina il cluster Managed Service for Apache Spark.

gcloud dataproc clusters delete cluster-name \
    --region=region

Elimina il bucket:
```
gcloud storage buckets delete BUCKET_NAME
```
Importante: prima di poter eliminare il bucket, questo deve essere vuoto.

Passaggi successivi

Scopri di più su Managed Service for Apache Spark.
Esplora architetture di riferimento, diagrammi, tutorial e best practice. Consulta il nostro Cloud Architecture Center.