Esta página foi traduzida pela API Cloud Translation.

Orquestre jobs executando pipelines do Nextflow em lote

Neste tutorial, explicamos como executar um pipeline do Nextflow no Batch. Especificamente, este tutorial executa o pipeline de ciências da vida de amostra rnaseq-nf do Nextflow, que quantifica recursos genômicos de dados de leitura curta usando RNA-Seq.

Este tutorial é destinado a usuários do Batch que querem usar o Nextflow com o Batch.

O Nextflow é um software de código aberto para orquestrar fluxos de trabalho de bioinformática.

Criar um bucket do Cloud Storage

Para criar um bucket do Cloud Storage e armazenar arquivos de trabalho temporários e de saída do pipeline do Nextflow, use o console Google Cloud ou a linha de comando.

Console

Para criar um bucket do Cloud Storage usando o console Google Cloud , siga estas etapas:

No console Google Cloud , acesse a página Buckets.

Acessar buckets
Clique em Criar.
Na página Criar um bucket, insira um nome globalmente exclusivo para o bucket.
Clique em Criar.
Na janela O acesso público será impedido, clique em Confirmar.

gcloud

Para criar um bucket do Cloud Storage usando a Google Cloud CLI, use o comando gcloud storage buckets create.

gcloud storage buckets create gs://BUCKET_NAME

Substitua BUCKET_NAME por um nome globalmente exclusivo para o bucket.

Se a solicitação for bem-sucedida, a saída será semelhante a esta:

Creating gs://BUCKET_NAME/...
   ```

Configurar o Nextflow

Para configurar o pipeline do Nextflow para ser executado no Batch, siga estas etapas na linha de comando:

Clone o repositório de exemplo de pipeline:

git clone https://github.com/nextflow-io/rnaseq-nf.git

Acesse a pasta rnaseq-nf:
```
cd rnaseq-nf
```

Abra o arquivo nextflow.config.

nano nextflow.config

O arquivo precisa conter a seguinte seção gcb:

gcb {
  params.transcriptome = 'gs://rnaseq-nf/data/ggal/transcript.fa'
  params.reads = 'gs://rnaseq-nf/data/ggal/gut_{1,2}.fq'
  params.multiqc = 'gs://rnaseq-nf/multiqc'
  process.executor = 'google-batch'
  process.container = 'quay.io/nextflow/rnaseq-nf:v1.1'
  workDir = 'gs://BUCKET_NAME/WORK_DIRECTORY'
  google.region  = 'REGION'
}

Na seção gcb, faça o seguinte:
1. Substitua BUCKET_NAME pelo nome do bucket do Cloud Storage criado nas etapas anteriores.
2. Substitua WORK_DIRECTORY pelo nome de uma nova pasta que o pipeline pode usar para armazenar registros e saídas.
  
  Por exemplo, insira workDir.
3. Substitua REGION pela região a ser usada.
  
  Por exemplo, insira us-central1.
4. Depois do campo google.region, adicione os seguintes campos:
  1. Adicione o campo google.project:
```
google.project = 'PROJECT_ID'
```
    Substitua PROJECT_ID pelo ID do projeto do projeto Google Cloud atual.
  2. Se você não estiver usando a conta de serviço padrão do Compute Engine como a conta de serviço do job, adicione o campo google.batch.serviceAccountEmail:
```
google.batch.serviceAccountEmail = 'SERVICE_ACCOUNT_EMAIL'
```
    Substitua SERVICE_ACCOUNT_EMAIL pelo endereço de e-mail da conta de serviço do job que você preparou para este tutorial.
  Objetivo: para saber mais sobre todos os campos que podem ser especificados para configurar o job do Batch em um pipeline do Nextflow, consulte a documentação do Nextflow sobre o escopo da configuração do Batch.
Para salvar as edições, faça o seguinte:
1. Pressione Control+S.
2. Digite Y.
3. Pressione Enter.

Executar o pipeline

Execute o pipeline de exemplo do Nextflow usando a linha de comando:

../nextflow run nextflow-io/rnaseq-nf -profile gcb

O pipeline executa um pequeno conjunto de dados usando as configurações fornecidas nas etapas anteriores. Essa operação pode levar até 10 minutos para ser concluída.

Depois que o pipeline terminar de ser executado, a saída será semelhante a esta:

N E X T F L O W  ~  version 23.04.1
Launching `https://github.com/nextflow-io/rnaseq-nf` [crazy_curry] DSL2 - revision: 88b8ef803a [master]
 R N A S E Q - N F   P I P E L I N E
 ===================================
 transcriptome: gs://rnaseq-nf/data/ggal/transcript.fa
 reads        : gs://rnaseq-nf/data/ggal/gut_{1,2}.fq
 outdir       : results

Uploading local `bin` scripts folder to gs://example-bucket/workdir/tmp/53/2847f2b832456a88a8e4cd44eec00a/bin
executor >  google-batch (4)
[67/71b856] process > RNASEQ:INDEX (transcript)     [100%] 1 of 1 ✔
[0c/2c79c6] process > RNASEQ:FASTQC (FASTQC on gut) [100%] 1 of 1 ✔
[a9/571723] process > RNASEQ:QUANT (gut)            [100%] 1 of 1 ✔
[9a/1f0dd4] process > MULTIQC                       [100%] 1 of 1 ✔

Done! Open the following report in your browser --> results/multiqc_report.html

Completed at: 20-Apr-2023 15:44:55
Duration    : 10m 13s
CPU hours   : (a few seconds)
Succeeded   : 4

Ver saídas do pipeline

Depois que o pipeline termina de ser executado, ele armazena arquivos de saída, registros, erros ou arquivos temporários no arquivo results/qc_report.html dentro da pasta WORK_DIRECTORY do bucket do Cloud Storage.

Para verificar os arquivos de saída do pipeline na pasta WORK_DIRECTORY do seu bucket do Cloud Storage, use o console Google Cloud ou a linha de comando.

Console

Para verificar os arquivos de saída do pipeline usando o console do Google Cloud , siga estas etapas:

No console Google Cloud , acesse a página Buckets.

Acessar buckets
Na coluna Nome, clique no nome do bucket criado nas etapas anteriores.
Na página Detalhes do bucket, abra a pasta WORK_DIRECTORY.

Há uma pasta para cada tarefa separada que o fluxo de trabalho executa. Cada pasta contém os comandos executados, os arquivos de saída e os arquivos temporários criados pelo pipeline.

gcloud

Para verificar os arquivos de saída do pipeline usando a CLI gcloud, use o comando gcloud storage ls.

gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY

Substitua:

BUCKET_NAME: o nome do bucket que você criou nas etapas anteriores.
WORK_DIRECTORY: o diretório especificado no arquivo nextflow.config.

A saída lista uma pasta para cada tarefa separada que o pipeline executa. Cada pasta contém os comandos executados, os arquivos de saída e os arquivos temporários criados pelo pipeline.

Orquestre jobs executando pipelines do Nextflow em lote Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Criar um bucket do Cloud Storage

Console

gcloud

Configurar o Nextflow

Executar o pipeline

Ver saídas do pipeline

Console

gcloud

Orquestre jobs executando pipelines do Nextflow em lote