En este instructivo, se explica cómo ejecutar una canalización de dsub en Batch.
Específicamente, la canalización de ejemplo dsub procesa datos de secuenciación de ADN en un archivo de mapa de alineación binaria (BAM) para crear un archivo de índice BAM (BAI).
Este instructivo está dirigido a los usuarios de Batch que desean usar dsub con Batch.
dsub es un programador de trabajos de código abierto para organizar flujos de trabajo de procesamiento por lotes en Google Cloud.
Para obtener más información sobre cómo usar Batch con dsub, consulta la documentación de dsub para Batch.
Cree un bucket de Cloud Storage
Para crear un bucket de Cloud Storage en el que se almacenarán los archivos de salida de la canalización de dsub de muestra con gcloud CLI, ejecuta el comando gcloud storage buckets create:
gcloud storage buckets create gs://BUCKET_NAME \
--project PROJECT_ID
Reemplaza lo siguiente:
BUCKET_NAME: Un nombre único a nivel global para tu bucket.PROJECT_ID: Es el ID del proyecto de tu proyecto de Google Cloud .
El resultado es similar a este:
Creating gs://BUCKET_NAME/...
Ejecuta la canalización dsub
La canalización de muestra dsub indexa un archivo BAM del 1,000 Genomes Project y genera los resultados en un bucket de Cloud Storage.
Para ejecutar la canalización de muestra de dsub, ejecuta el siguiente comando de dsub:
dsub \
--provider google-batch \
--project PROJECT_ID \
--logging gs://BUCKET_NAME/WORK_DIRECTORY/logs \
--input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
--output BAI=gs://BUCKET_NAME/WORK_DIRECTORY/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
--image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
--command 'samtools index ${BAM} ${BAI}' \
--wait
Reemplaza lo siguiente:
PROJECT_ID: Es el ID del proyecto de tu proyecto de Google Cloud .BUCKET_NAME: Es el nombre del bucket de Cloud Storage que creaste.WORK_DIRECTORY: Es el nombre de un directorio nuevo que la canalización puede usar para almacenar registros y resultados. Por ejemplo, ingresaworkDir.
La canalización dsub ejecuta un trabajo por lotes que escribe el archivo y los registros de BAI en el directorio especificado de tu bucket de Cloud Storage.
Específicamente, el repositorio dsub contiene una imagen de Docker prediseñada que usa samtools para indexar el archivo BAM que especificaste en la marca --input.
El comando no finaliza hasta que se termina de ejecutar la canalización de dsub, lo que puede variar según el momento en que se programe el trabajo por lotes.
Por lo general, esto tarda unos 10 minutos: Batch suele comenzar a ejecutar el trabajo en unos minutos, y el tiempo de ejecución del trabajo es de unos 8 minutos.
Al principio, el comando sigue en ejecución y el resultado es similar al siguiente:
Job properties:
job-id: JOB_NAME
job-name: samtools
user-id: USERNAME
Provider internal-id (operation): projects/PROJECT_ID/locations/us-central1/jobs/JOB_NAME
Launched job-id: JOB_NAME
To check the status, run:
dstat --provider google-batch --project PROJECT_ID --location us-central1 --jobs 'JOB_NAME' --users 'USERNAME' --status '*'
To cancel the job, run:
ddel --provider google-batch --project PROJECT_ID --location us-central1 --jobs 'JOB_NAME' --users 'USERNAME'
Waiting for job to complete...
Waiting for: JOB_NAME.
Luego, después de que el trabajo finalice correctamente, el comando se detendrá y el resultado será similar al siguiente:
JOB_NAME: SUCCESS
JOB_NAME
En esta salida, se incluyen los siguientes valores:
JOB_NAME: Es el nombre del trabajo.USERNAME: Tu Google Cloud nombre de usuario.PROJECT_ID: Es el ID del proyecto de tu proyecto de Google Cloud .
Cómo ver los archivos de salida
Para ver los archivos de salida creados por la canalización de dsub de muestra con gcloud CLI, ejecuta el comando gcloud storage ls:
gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY \
--project PROJECT_ID
Reemplaza lo siguiente:
BUCKET_NAME: Es el nombre del bucket de Cloud Storage que creaste.WORK_DIRECTORY: Es el directorio que especificaste en el comandodsub.PROJECT_ID: Es el ID del proyecto de tu proyecto de Google Cloud .
El resultado es similar a este:
gs://BUCKET_NAME/WORK_DIRECTORY/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
gs://BUCKET_NAME/WORK_DIRECTORY/logs/
Este resultado incluye el archivo BAI y un directorio que contiene los registros del trabajo.