이 튜토리얼에서는 Batch에서 Nextflow 파이프라인을 실행하는 방법을 설명합니다. 특히 이 튜토리얼에서는 RNA-Seq를 사용하는 짧은 읽기 데이터로부터 게놈 특성을 수량화하는 Nextflow의 샘플 rnaseq-nf
생명과학 파이프라인을 실행합니다.
이 튜토리얼은 Batch에 Nextflow를 사용하려는 Batch 사용자를 대상으로 합니다.
Nextflow는 생물정보학 워크플로를 조정하기 위한 오픈소스 소프트웨어입니다.
Cloud Storage 버킷 만들기
Nextflow 파이프라인의 임시 작업 및 출력 파일을 저장할 Cloud Storage 버킷을 만들려면 Google Cloud 콘솔 또는 명령줄을 사용하세요.
콘솔
Google Cloud 콘솔을 사용하여 Cloud Storage 버킷을 만들려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 버킷 페이지로 이동합니다.
만들기를 클릭합니다.
버킷 만들기 페이지에서 버킷의 전역으로 고유한 이름을 입력합니다.
만들기를 클릭합니다.
공개 액세스가 차단됨 창에서 확인을 클릭합니다.
gcloud
Google Cloud CLI를 사용하여 Cloud Storage 버킷을 만들려면 gcloud storage buckets create
명령어를 사용합니다.
gcloud storage buckets create gs://BUCKET_NAME
BUCKET_NAME
을 버킷의 전역적으로 고유한 이름으로 바꿉니다.
요청이 성공하면 출력은 다음과 비슷합니다.
Creating gs://BUCKET_NAME/...
```
Nextflow 구성
Batch에서 실행되도록 Nextflow 파이프라인을 구성하려면 명령줄에서 다음 단계를 따르세요.
샘플 파이프라인 저장소를 클론합니다.
git clone https://github.com/nextflow-io/rnaseq-nf.git
rnaseq-nf
폴더로 이동합니다.cd rnaseq-nf
nextflow.config
파일을 엽니다.nano nextflow.config
파일에 다음
gcb
섹션이 포함되어야 합니다.gcb { params.transcriptome = 'gs://rnaseq-nf/data/ggal/transcript.fa' params.reads = 'gs://rnaseq-nf/data/ggal/gut_{1,2}.fq' params.multiqc = 'gs://rnaseq-nf/multiqc' process.executor = 'google-batch' process.container = 'quay.io/nextflow/rnaseq-nf:v1.1' workDir = 'gs://BUCKET_NAME/WORK_DIRECTORY' google.region = 'REGION' }
gcb
섹션에서 다음을 수행합니다.BUCKET_NAME
을 이전 단계에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.WORK_DIRECTORY
을 파이프라인에서 로그와 출력을 저장하는 데 사용할 수 있는 새 폴더의 이름으로 바꿉니다.예를 들어
workDir
를 입력합니다.REGION
을 사용할 리전으로 바꿉니다.예를 들어
us-central1
를 입력합니다.google.region
필드 뒤에 다음 필드를 추가합니다.google.project
필드를 추가합니다.google.project = 'PROJECT_ID'
PROJECT_ID
를 현재 Google Cloud 프로젝트의 프로젝트 ID로 바꿉니다.Compute Engine 기본 서비스 계정을 작업의 서비스 계정으로 사용하지 않는 경우
google.batch.serviceAccountEmail
필드를 추가합니다.google.batch.serviceAccountEmail = 'SERVICE_ACCOUNT_EMAIL'
SERVICE_ACCOUNT_EMAIL
을 이 튜토리얼에 준비한 작업 서비스 계정의 이메일 주소로 바꿉니다.
수정사항을 저장하려면 다음을 수행합니다.
Control+S
키를 누릅니다.Y
를 입력합니다.Enter
키를 누릅니다.
파이프라인 실행하기
명령줄을 사용하여 샘플 Nextflow 파이프라인을 실행합니다.
../nextflow run nextflow-io/rnaseq-nf -profile gcb
파이프라인은 이전 단계에서 제공한 설정을 사용하여 작은 데이터 세트를 실행합니다. 이 작업은 완료하는 데 최대 10분이 걸릴 수 있습니다.
파이프라인 실행이 완료되면 다음과 비슷한 출력이 표시됩니다.
N E X T F L O W ~ version 23.04.1
Launching `https://github.com/nextflow-io/rnaseq-nf` [crazy_curry] DSL2 - revision: 88b8ef803a [master]
R N A S E Q - N F P I P E L I N E
===================================
transcriptome: gs://rnaseq-nf/data/ggal/transcript.fa
reads : gs://rnaseq-nf/data/ggal/gut_{1,2}.fq
outdir : results
Uploading local `bin` scripts folder to gs://example-bucket/workdir/tmp/53/2847f2b832456a88a8e4cd44eec00a/bin
executor > google-batch (4)
[67/71b856] process > RNASEQ:INDEX (transcript) [100%] 1 of 1 ✔
[0c/2c79c6] process > RNASEQ:FASTQC (FASTQC on gut) [100%] 1 of 1 ✔
[a9/571723] process > RNASEQ:QUANT (gut) [100%] 1 of 1 ✔
[9a/1f0dd4] process > MULTIQC [100%] 1 of 1 ✔
Done! Open the following report in your browser --> results/multiqc_report.html
Completed at: 20-Apr-2023 15:44:55
Duration : 10m 13s
CPU hours : (a few seconds)
Succeeded : 4
파이프라인의 출력 보기
파이프라인이 실행을 완료하면 Cloud Storage 버킷의 WORK_DIRECTORY
폴더 내 results/qc_report.html
파일에 출력 파일, 로그, 오류 또는 임시 파일이 저장됩니다.
Cloud Storage 버킷의 WORK_DIRECTORY
폴더에서 파이프라인의 출력 파일을 확인하려면 Google Cloud 콘솔 또는 명령줄을 사용하면 됩니다.
콘솔
Google Cloud 콘솔을 사용하여 파이프라인의 출력 파일을 확인하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 버킷 페이지로 이동합니다.
이름 열에서 이전 단계에서 만든 버킷의 이름을 클릭합니다.
버킷 세부정보 페이지에서
WORK_DIRECTORY
폴더를 엽니다.
워크플로가 실행하는 각각의 개별 태스크에 대한 폴더가 있습니다. 각 폴더에는 실행된 명령어, 출력 파일, 파이프라인에서 생성된 임시 파일이 포함됩니다.
gcloud
gcloud CLI를 사용하여 파이프라인의 출력 파일을 확인하려면 gcloud storage ls
명령어를 사용합니다.
gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY
다음을 바꿉니다.
BUCKET_NAME
: 이전 단계에서 만든 버킷의 이름입니다.WORK_DIRECTORY
:nextflow.config
파일에 지정한 디렉터리
파이프라인에서 실행되는 각각의 개별 태스크에 대한 폴더가 출력에 나열됩니다. 각 폴더에는 실행된 명령어, 출력 파일, 파이프라인에서 생성된 임시 파일이 포함됩니다.