Workflows를 사용하여 Cloud Run 작업 실행

Workflows를 사용하면 워크플로의 일부로 Cloud Run 작업을 실행하여 보다 복잡한 데이터 처리를 수행하거나 기존 작업 시스템을 조정할 수 있습니다.

이 튜토리얼에서는 Workflows를 사용해서 Cloud Storage의 이벤트에 대한 응답으로 작업에 환경 변수로 전달된 데이터를 처리하는 Cloud Run 작업을 실행하는 방법을 보여줍니다.

또한 고객 관리 암호화 키를 사용해서 데이터를 암호화할 수 있도록 Cloud Storage 버킷에 이벤트 데이터를 저장할 수 있습니다. 자세한 내용은 Cloud Storage에 저장된 이벤트 데이터를 처리하는 Cloud Run 작업 실행을 참조하세요.

Cloud Run 작업 만들기

이 튜토리얼에서는 GitHub의 샘플 Cloud Run 작업을 사용합니다. 이 작업은 Cloud Storage의 입력 파일에서 데이터를 읽고 파일의 각 행에 대해 임의의 처리를 수행합니다.

  1. 샘플 앱 저장소를 로컬 머신에 클론하여 샘플 코드를 가져옵니다.

    git clone https://github.com/GoogleCloudPlatform/jobs-demos.git

    또는 zip 파일로 샘플을 다운로드하고 압축을 풉니다.

  2. 샘플 코드가 있는 디렉터리로 변경합니다.

    cd jobs-demos/parallel-processing
  3. 이벤트를 작성하고 트리거할 수 있는 입력 파일을 저장할 Cloud Storage 버킷을 만듭니다.

    콘솔

    1. Google Cloud 콘솔에서 Cloud Storage 버킷 페이지로 이동합니다.

      버킷으로 이동

    2. 추가 만들기를 클릭합니다.
    3. 버킷 만들기 페이지에서 버킷 이름을 입력합니다.
      input-PROJECT_ID
      PROJECT_ID를 Google Cloud 프로젝트의 ID로 바꿉니다.
    4. 다른 기본값은 유지합니다.
    5. 만들기를 클릭합니다.

    gcloud

    gcloud storage buckets create 명령어를 실행합니다.

    gcloud storage buckets create gs://input-PROJECT_ID

    요청이 성공하면 명령어에서 다음과 같은 메시지를 반환합니다.

    Creating gs://input-PROJECT_ID/...

    Terraform

    Cloud Storage 버킷을 만들려면 google_storage_bucket 리소스를 사용하여 다음 샘플과 같이 main.tf 파일을 수정합니다.

    Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.

    일반적인 Terraform 워크플로에서는 전체 계획을 한 번에 적용합니다. 그러나 이 튜토리얼에서는 특정 리소스를 대상으로 적용할 수 있습니다. 예를 들면 다음과 같습니다.

    terraform apply -target="random_id.bucket_name_suffix"

    terraform apply -target="google_storage_bucket.default"

    # Cloud Storage bucket names must be globally unique
    resource "random_id" "bucket_name_suffix" {
      byte_length = 4
    }
    
    # Create a Cloud Storage bucket
    resource "google_storage_bucket" "default" {
      name                        = "input-${data.google_project.project.name}-${random_id.bucket_name_suffix.hex}"
      location                    = "us-central1"
      storage_class               = "STANDARD"
      force_destroy               = false
      uniform_bucket_level_access = true
    }
  4. 컨테이너 이미지를 저장할 수 있는 Artifact Registry 표준 저장소를 만듭니다.

    콘솔

    1. Google Cloud 콘솔에서 Artifact Registry 저장소 페이지로 이동합니다.

      저장소로 이동

    2. 저장소 만들기를 클릭합니다.

    3. 저장소 이름을 입력합니다(예: my-repo). 프로젝트의 저장소 위치마다 저장소 이름이 고유해야 합니다.

    4. 기본 형식(Docker)을 유지합니다.

    5. 기본 모드인 표준을 유지합니다.

    6. 리전으로 us-central1(아이오와)을 선택합니다.

    7. 다른 모든 기본값은 유지합니다.

    8. 만들기를 클릭합니다.

    gcloud

    다음 명령어를 실행합니다.

    gcloud artifacts repositories create REPOSITORY \
        --repository-format=docker \
        --location=us-central1

    REPOSITORY를 저장소의 고유한 이름(예: my-repo)으로 바꿉니다. 프로젝트의 저장소 위치마다 저장소 이름이 고유해야 합니다.

    Terraform

    Artifact Registry 저장소를 만들려면 google_artifact_registry_repository 리소스를 사용하여 다음 샘플과 같이 main.tf 파일을 수정합니다.

    일반적인 Terraform 워크플로에서는 전체 계획을 한 번에 적용합니다. 그러나 이 튜토리얼에서는 특정 리소스를 대상으로 적용할 수 있습니다. 예를 들면 다음과 같습니다.

    terraform apply -target="google_artifact_registry_repository.default"

    # Create an Artifact Registry repository
    resource "google_artifact_registry_repository" "default" {
      location      = "us-central1"
      repository_id = "my-repo"
      format        = "docker"
    }
  5. 기본 Google Cloud 빌드팩을 사용하여 컨테이너 이미지를 빌드합니다.

    export SERVICE_NAME=parallel-job
    gcloud builds submit \
        --pack image=us-central1-docker.pkg.dev/PROJECT_ID/REPOSITORY/${SERVICE_NAME}

    REPOSITORY를 Artifact Registry 저장소의 이름으로 바꿉니다.

    빌드가 완료되는 데 몇 분 정도 걸릴 수 있습니다.

  6. 컨테이너 이미지를 배포하는 Cloud Run 작업을 만듭니다.

    콘솔

    1. Google Cloud 콘솔에서 Cloud Run 페이지로 이동합니다.

      Cloud Run으로 이동

    2. 작업 만들기를 클릭하여 작업 만들기 양식을 표시합니다.

      1. 양식에서 us-central1-docker.pkg.dev/PROJECT_ID/REPOSITORY/parallel-job:latest를 Artifact Registry 컨테이너 이미지 URL로 선택합니다.
      2. 선택사항: 작업 이름으로 parallel-job을 입력합니다.
      3. 선택사항: 리전으로 us-central1(아이오와)을 선택합니다.
      4. 작업에서 실행할 태스크 수로 10을 입력합니다. 모든 태스크가 성공해야 작업이 성공합니다. 기본적으로 태스크는 동시에 실행됩니다.
    3. 컨테이너, 변수 및 보안 비밀, 연결, 보안 섹션을 펼치고 다음 설정을 제외한 모든 기본값을 유지합니다.

      1. 일반 탭을 클릭합니다.

        1. 컨테이너 명령어로 python을 입력합니다.
        2. 컨테이너 인수로 process.py를 입력합니다.
      2. 변수 및 보안 비밀 탭을 클릭합니다.

        1. 변수 추가를 클릭하고 이름에 INPUT_BUCKET을, 값에 input-PROJECT_ID를 입력합니다.
        2. 변수 추가를 클릭하고 이름에 INPUT_FILE을, 값에 input_file.txt를 입력합니다.
    4. 작업을 만들려면 만들기를 클릭합니다.

    gcloud

    1. 기본 Cloud Run 리전을 설정합니다.

      gcloud config set run/region us-central1
    2. Cloud Run 작업을 만듭니다.

      gcloud run jobs create parallel-job \
          --image us-central1-docker.pkg.dev/PROJECT_ID/REPOSITORY/parallel-job:latest \
          --command python \
          --args process.py \
          --tasks 10 \
          --set-env-vars=INPUT_BUCKET=input-PROJECT_ID,INPUT_FILE=input_file.txt

      이미지 태그를 지정하지 않으면 Artifact Registry가 기본 latest 태그가 있는 이미지를 찾습니다.

      작업을 만들 때 사용 가능한 옵션의 전체 목록은 gcloud run jobs create 명령줄 문서를 참조하세요.

      작업이 생성되면 성공을 나타내는 메시지가 표시됩니다.

    Terraform

    Cloud Run 작업을 만들려면 google_cloud_run_v2_job 리소스를 사용하여 다음 샘플과 같이 main.tf 파일을 수정합니다.

    일반적인 Terraform 워크플로에서는 전체 계획을 한 번에 적용합니다. 그러나 이 튜토리얼에서는 특정 리소스를 대상으로 적용할 수 있습니다. 예를 들면 다음과 같습니다.

    terraform apply -target="google_cloud_run_v2_job.default"

    # Create a Cloud Run job
    resource "google_cloud_run_v2_job" "default" {
      name     = "parallel-job"
      location = "us-central1"
    
      template {
        task_count = 10
        template {
          containers {
            image   = "us-central1-docker.pkg.dev/${data.google_project.project.name}/${google_artifact_registry_repository.default.repository_id}/parallel-job:latest"
            command = ["python"]
            args    = ["process.py"]
            env {
              name  = "INPUT_BUCKET"
              value = google_storage_bucket.default.name
            }
            env {
              name  = "INPUT_FILE"
              value = "input_file.txt"
            }
          }
        }
      }
    }

Cloud Run 작업을 실행하는 워크플로 배포

바로 전에 만든 Cloud Run 작업을 실행하는 워크플로를 정의하고 배포합니다. 워크플로 정의는 Workflows 문법을 사용하여 기술된 일련의 단계로 구성됩니다.

콘솔

  1. Google Cloud 콘솔에서 Workflows 페이지로 이동합니다.

    Workflows로 이동

  2. 만들기를 클릭합니다.

  3. 새 워크플로의 이름을 입력합니다(예: cloud-run-job-workflow).

  4. 리전으로 us-central1(아이오와)을 선택합니다.

  5. 서비스 계정 필드에서 앞에서 만든 서비스 계정을 선택합니다.

    서비스 계정은 워크플로의 ID로 작동합니다. 워크플로가 Cloud Run 작업을 실행할 수 있도록 서비스 계정에 Cloud Run 관리자 역할이 이미 부여되어 있어야 합니다.

  6. 다음을 클릭합니다.

  7. 워크플로 편집기에서 다음 워크플로 정의를 입력합니다.

    main:
        params: [event]
        steps:
            - init:
                assign:
                    - project_id: ${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                    - event_bucket: ${event.data.bucket}
                    - event_file: ${event.data.name}
                    - target_bucket: ${"input-" + project_id}
                    - job_name: parallel-job
                    - job_location: us-central1
            - check_input_file:
                switch:
                    - condition: ${event_bucket == target_bucket}
                      next: run_job
                    - condition: true
                      next: end
            - run_job:
                call: googleapis.run.v1.namespaces.jobs.run
                args:
                    name: ${"namespaces/" + project_id + "/jobs/" + job_name}
                    location: ${job_location}
                    body:
                        overrides:
                            containerOverrides:
                                env:
                                    - name: INPUT_BUCKET
                                      value: ${event_bucket}
                                    - name: INPUT_FILE
                                      value: ${event_file}
                result: job_execution
            - finish:
                return: ${job_execution}
  8. 배포를 클릭합니다.

gcloud

  1. 워크플로의 소스 코드 파일을 만듭니다.

    touch cloud-run-job-workflow.yaml
  2. 다음 워크플로 정의를 소스 코드 파일에 복사합니다.

    main:
        params: [event]
        steps:
            - init:
                assign:
                    - project_id: ${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                    - event_bucket: ${event.data.bucket}
                    - event_file: ${event.data.name}
                    - target_bucket: ${"input-" + project_id}
                    - job_name: parallel-job
                    - job_location: us-central1
            - check_input_file:
                switch:
                    - condition: ${event_bucket == target_bucket}
                      next: run_job
                    - condition: true
                      next: end
            - run_job:
                call: googleapis.run.v1.namespaces.jobs.run
                args:
                    name: ${"namespaces/" + project_id + "/jobs/" + job_name}
                    location: ${job_location}
                    body:
                        overrides:
                            containerOverrides:
                                env:
                                    - name: INPUT_BUCKET
                                      value: ${event_bucket}
                                    - name: INPUT_FILE
                                      value: ${event_file}
                result: job_execution
            - finish:
                return: ${job_execution}
  3. 다음 명령어를 입력하여 워크플로를 배포합니다.

    gcloud workflows deploy cloud-run-job-workflow \
        --location=us-central1 \
        --source=cloud-run-job-workflow.yaml \
        --service-account=SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

    다음을 바꿉니다.

    • SERVICE_ACCOUNT_NAME: 이전에 만든 서비스 계정의 이름
    • PROJECT_ID:Google Cloud 프로젝트의 ID

    서비스 계정은 워크플로의 ID로 작동합니다. 워크플로가 Cloud Run 작업을 실행할 수 있도록 서비스 계정에 roles/run.admin 역할이 이미 부여되어 있어야 합니다.

Terraform

워크플로를 만들려면 google_workflows_workflow 리소스를 사용하여 다음 샘플과 같이 main.tf 파일을 수정합니다.

Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.

일반적인 Terraform 워크플로에서는 전체 계획을 한 번에 적용합니다. 그러나 이 튜토리얼에서는 특정 리소스를 대상으로 적용할 수 있습니다. 예를 들면 다음과 같습니다.

terraform apply -target="google_workflows_workflow.default"

# Create a workflow
resource "google_workflows_workflow" "default" {
  name        = "cloud-run-job-workflow"
  region      = "us-central1"
  description = "Workflow that routes a Cloud Storage event and executes a Cloud Run job"

  deletion_protection = false # set to "true" in production

  # Note that $$ is needed for Terraform
  source_contents = <<EOF
  main:
      params: [event]
      steps:
          - init:
              assign:
                  - project_id: $${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                  - event_bucket: $${event.data.bucket}
                  - event_file: $${event.data.name}
                  - target_bucket: "${google_storage_bucket.default.name}"
                  - job_name: parallel-job
                  - job_location: us-central1
          - check_input_file:
              switch:
                  - condition: $${event_bucket == target_bucket}
                    next: run_job
                  - condition: true
                    next: end
          - run_job:
              call: googleapis.run.v1.namespaces.jobs.run
              args:
                  name: $${"namespaces/" + project_id + "/jobs/" + job_name}
                  location: $${job_location}
                  body:
                      overrides:
                          containerOverrides:
                              env:
                                  - name: INPUT_BUCKET
                                    value: $${event_bucket}
                                  - name: INPUT_FILE
                                    value: $${event_file}
              result: job_execution
          - finish:
              return: $${job_execution}
  EOF
}

워크플로는 다음을 수행합니다.

  1. init 단계는 Cloud Storage 이벤트를 인수로 수락한 다음 필요한 변수를 설정합니다.

  2. check_input_file 단계: 이벤트에 지정된 Cloud Storage 버킷이 Cloud Run 작업에서 사용하는 버킷인지 확인합니다.

    • '예'이면 워크플로가 run_job 단계로 진행합니다.
    • '아니요'이면 워크플로가 종료되고 추가 처리가 중지됩니다.
  3. run_job 단계: Cloud Run Admin API 커넥터의 googleapis.run.v1.namespaces.jobs.run 메서드를 사용하여 작업을 실행합니다. Cloud Storage 버킷 및 데이터 파일 이름은 워크플로에서 작업으로 재정의 변수로 전달됩니다.

  4. finish 단계: 워크플로의 결과로 작업 실행에 대한 정보를 반환합니다.

워크플로의 Eventarc 트리거 만들기

입력 데이터 파일이 업데이트될 때마다 워크플로를 자동으로 실행하고 Cloud Run 작업을 실행하려면 입력 데이터 파일이 포함된 버킷의 Cloud Storage 이벤트에 응답하는 Eventarc 트리거를 만듭니다.

콘솔

  1. Google Cloud 콘솔에서 Workflows 페이지로 이동합니다.

    Workflows로 이동

  2. 워크플로의 이름을 클릭합니다(예: cloud-run-job-workflow).

  3. 워크플로 세부정보 페이지에서 수정을 클릭합니다.

  4. 워크플로 수정 페이지의 트리거 섹션에서 새 트리거 추가 > Eventarc를 클릭합니다.

    Eventarc 트리거 창이 열립니다.

  5. 트리거 이름 필드에 트리거 이름을 입력합니다(예: cloud-run-job-workflow-trigger).

  6. 이벤트 제공자 목록에서 Cloud Storage를 선택합니다.

  7. 이벤트 목록에서 google.cloud.storage.object.v1.finalized를 선택합니다.

  8. 버킷 필드에서 입력 데이터 파일이 포함된 버킷을 선택합니다. 버킷 이름은 input-PROJECT_ID 형식입니다.

  9. 서비스 계정 필드에서 앞에서 만든 서비스 계정을 선택합니다.

    서비스 계정은 트리거의 ID로 작동합니다. 다음 역할이 서비스 계정에 이미 부여되어 있어야 합니다.

    • Eventarc 이벤트 수신자: 이벤트를 수신합니다.
    • Workflows 호출자: 워크플로를 실행합니다.
  10. 트리거 저장을 클릭합니다.

    이제 워크플로 수정 페이지의 트리거 섹션에 Eventarc 트리거가 표시됩니다.

  11. 다음을 클릭합니다.

  12. 배포를 클릭합니다.

gcloud

다음 명령어를 실행하여 Eventarc 트리거를 만듭니다.

gcloud eventarc triggers create cloud-run-job-workflow-trigger \
    --location=us \
    --destination-workflow=cloud-run-job-workflow  \
    --destination-workflow-location=us-central1 \
    --event-filters="type=google.cloud.storage.object.v1.finalized" \
    --event-filters="bucket=input-PROJECT_ID" \
    --service-account=SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

다음을 바꿉니다.

  • PROJECT_ID: Google Cloud 프로젝트 ID입니다.
  • SERVICE_ACCOUNT_NAME: 이전에 만든 서비스 계정의 이름

서비스 계정은 트리거의 ID로 작동합니다. 다음 역할이 서비스 계정에 이미 부여되어 있어야 합니다.

  • roles/eventarc.eventReceiver: 이벤트 수신
  • roles/workflows.invoker: 워크플로 실행

Terraform

트리거를 만들려면 google_eventarc_trigger 리소스를 사용하여 다음 샘플과 같이 main.tf 파일을 수정합니다.

Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.

일반적인 Terraform 워크플로에서는 전체 계획을 한 번에 적용합니다. 그러나 이 튜토리얼에서는 특정 리소스를 대상으로 적용할 수 있습니다. 예를 들면 다음과 같습니다.

terraform apply -target="google_eventarc_trigger.default"

# Create an Eventarc trigger that routes Cloud Storage events to Workflows
resource "google_eventarc_trigger" "default" {
  name     = "cloud-run-job-trigger"
  location = google_workflows_workflow.default.region

  # Capture objects changed in the bucket
  matching_criteria {
    attribute = "type"
    value     = "google.cloud.storage.object.v1.finalized"
  }
  matching_criteria {
    attribute = "bucket"
    value     = google_storage_bucket.default.name
  }

  # Send events to Workflows
  destination {
    workflow = google_workflows_workflow.default.id
  }

  service_account = google_service_account.workflows.email

}

입력 데이터 파일이 포함된 Cloud Storage 버킷에서 파일을 업로드하거나 덮어쓸 때마다 해당 Cloud Storage 이벤트를 인수로 사용해서 워크플로가 실행됩니다.

워크플로 트리거

Cloud Storage에서 입력 데이터 파일을 업데이트하여 엔드 투 엔드 시스템을 테스트합니다.

  1. 입력 파일에 대한 새 데이터를 생성하고 Cloud Run 작업이 예상하는 위치의 Cloud Storage에 업로드합니다.

    base64 /dev/urandom | head -c 100000 >input_file.txt
    gcloud storage cp input_file.txt gs://input-PROJECT_ID/input_file.txt

    Terraform을 사용하여 Cloud Storage 버킷을 만든 경우 다음 명령어를 실행하여 버킷 이름을 검색할 수 있습니다.

    gcloud storage buckets list gs://input*

    Cloud Run 작업을 실행하는 데 몇 분 정도 걸릴 수 있습니다.

  2. 작업 실행을 확인해서 Cloud Run 작업이 예상한 대로 실행되었는지 확인합니다.

    gcloud config set run/region us-central1
    gcloud run jobs executions list --job=parallel-job

    10/10 태스크가 완료되었음을 나타내는 성공적인 작업 실행이 출력에 표시됩니다.

이벤트 또는 Pub/Sub 메시지로 워크플로 트리거에 대해 자세히 알아보세요.