Orquestre jobs executando pipelines do Nextflow em lote

Neste tutorial, explicamos como executar um pipeline do Nextflow no Batch. Especificamente, este tutorial executa o pipeline de ciências da vida de amostra rnaseq-nf do Nextflow, que quantifica recursos genômicos de dados de leitura curta usando RNA-Seq.

Este tutorial é destinado a usuários do Batch que querem usar o Nextflow com o Batch.

O Nextflow é um software de código aberto para orquestrar fluxos de trabalho de bioinformática.

Criar um bucket do Cloud Storage

Para criar um bucket do Cloud Storage e armazenar arquivos de trabalho temporários e de saída do pipeline do Nextflow, use o console Google Cloud ou a linha de comando.

Console

Para criar um bucket do Cloud Storage usando o console Google Cloud , siga estas etapas:

  1. No console Google Cloud , acesse a página Buckets.

    Acessar buckets

  2. Clique em Criar.

  3. Na página Criar um bucket, insira um nome globalmente exclusivo para o bucket.

  4. Clique em Criar.

  5. Na janela O acesso público será impedido, clique em Confirmar.

gcloud

Para criar um bucket do Cloud Storage usando a Google Cloud CLI, use o comando gcloud storage buckets create.

gcloud storage buckets create gs://BUCKET_NAME

Substitua BUCKET_NAME por um nome globalmente exclusivo para o bucket.

Se a solicitação for bem-sucedida, a saída será semelhante a esta:

Creating gs://BUCKET_NAME/...
   ```

Configurar o Nextflow

Para configurar o pipeline do Nextflow para ser executado no Batch, siga estas etapas na linha de comando:

  1. Clone o repositório de exemplo de pipeline:

    git clone https://github.com/nextflow-io/rnaseq-nf.git
    
  2. Acesse a pasta rnaseq-nf:

    cd rnaseq-nf
    
  3. Abra o arquivo nextflow.config.

    nano nextflow.config
    

    O arquivo precisa conter a seguinte seção gcb:

    gcb {
      params.transcriptome = 'gs://rnaseq-nf/data/ggal/transcript.fa'
      params.reads = 'gs://rnaseq-nf/data/ggal/gut_{1,2}.fq'
      params.multiqc = 'gs://rnaseq-nf/multiqc'
      process.executor = 'google-batch'
      process.container = 'quay.io/nextflow/rnaseq-nf:v1.1'
      workDir = 'gs://BUCKET_NAME/WORK_DIRECTORY'
      google.region  = 'REGION'
    }
    
  4. Na seção gcb, faça o seguinte:

    1. Substitua BUCKET_NAME pelo nome do bucket do Cloud Storage criado nas etapas anteriores.

    2. Substitua WORK_DIRECTORY pelo nome de uma nova pasta que o pipeline pode usar para armazenar registros e saídas.

      Por exemplo, insira workDir.

    3. Substitua REGION pela região a ser usada.

      Por exemplo, insira us-central1.

    4. Depois do campo google.region, adicione os seguintes campos:

      1. Adicione o campo google.project:

        google.project = 'PROJECT_ID'
        

        Substitua PROJECT_ID pelo ID do projeto do projeto Google Cloud atual.

      2. Se você não estiver usando a conta de serviço padrão do Compute Engine como a conta de serviço do job, adicione o campo google.batch.serviceAccountEmail:

        google.batch.serviceAccountEmail = 'SERVICE_ACCOUNT_EMAIL'
        

        Substitua SERVICE_ACCOUNT_EMAIL pelo endereço de e-mail da conta de serviço do job que você preparou para este tutorial.

  5. Para salvar as edições, faça o seguinte:

    1. Pressione Control+S.

    2. Digite Y.

    3. Pressione Enter.

Executar o pipeline

Execute o pipeline de exemplo do Nextflow usando a linha de comando:

../nextflow run nextflow-io/rnaseq-nf -profile gcb

O pipeline executa um pequeno conjunto de dados usando as configurações fornecidas nas etapas anteriores. Essa operação pode levar até 10 minutos para ser concluída.

Depois que o pipeline terminar de ser executado, a saída será semelhante a esta:

N E X T F L O W  ~  version 23.04.1
Launching `https://github.com/nextflow-io/rnaseq-nf` [crazy_curry] DSL2 - revision: 88b8ef803a [master]
 R N A S E Q - N F   P I P E L I N E
 ===================================
 transcriptome: gs://rnaseq-nf/data/ggal/transcript.fa
 reads        : gs://rnaseq-nf/data/ggal/gut_{1,2}.fq
 outdir       : results

Uploading local `bin` scripts folder to gs://example-bucket/workdir/tmp/53/2847f2b832456a88a8e4cd44eec00a/bin
executor >  google-batch (4)
[67/71b856] process > RNASEQ:INDEX (transcript)     [100%] 1 of 1 ✔
[0c/2c79c6] process > RNASEQ:FASTQC (FASTQC on gut) [100%] 1 of 1 ✔
[a9/571723] process > RNASEQ:QUANT (gut)            [100%] 1 of 1 ✔
[9a/1f0dd4] process > MULTIQC                       [100%] 1 of 1 ✔

Done! Open the following report in your browser --> results/multiqc_report.html

Completed at: 20-Apr-2023 15:44:55
Duration    : 10m 13s
CPU hours   : (a few seconds)
Succeeded   : 4

Ver saídas do pipeline

Depois que o pipeline termina de ser executado, ele armazena arquivos de saída, registros, erros ou arquivos temporários no arquivo results/qc_report.html dentro da pasta WORK_DIRECTORY do bucket do Cloud Storage.

Para verificar os arquivos de saída do pipeline na pasta WORK_DIRECTORY do seu bucket do Cloud Storage, use o console Google Cloud ou a linha de comando.

Console

Para verificar os arquivos de saída do pipeline usando o console do Google Cloud , siga estas etapas:

  1. No console Google Cloud , acesse a página Buckets.

    Acessar buckets

  2. Na coluna Nome, clique no nome do bucket criado nas etapas anteriores.

  3. Na página Detalhes do bucket, abra a pasta WORK_DIRECTORY.

Há uma pasta para cada tarefa separada que o fluxo de trabalho executa. Cada pasta contém os comandos executados, os arquivos de saída e os arquivos temporários criados pelo pipeline.

gcloud

Para verificar os arquivos de saída do pipeline usando a CLI gcloud, use o comando gcloud storage ls.

gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY

Substitua:

  • BUCKET_NAME: o nome do bucket que você criou nas etapas anteriores.

  • WORK_DIRECTORY: o diretório especificado no arquivo nextflow.config.

A saída lista uma pasta para cada tarefa separada que o pipeline executa. Cada pasta contém os comandos executados, os arquivos de saída e os arquivos temporários criados pelo pipeline.