Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

데이터 엔지니어링 파이프라인 빌드

이 가이드에서는 Antigravity IDE용 Google Cloud Data Agent Kit 확장 프로그램에서 오케스트레이션 파이프라인을 만들고 배포하는 방법을 설명합니다.

예시 파이프라인은 Managed Service for Apache Spark에서 PySpark 스크립트를 실행합니다.

main 브랜치에 변경사항을 병합할 때와 같이 Antigravity IDE에서 오케스트레이션 파이프라인을 로컬 버전으로 또는 GitHub 작업을 통해 배포할 수 있습니다. 이 문서에서는 오케스트레이션 파이프라인의 로컬 버전을 배포하는 방법을 보여줍니다.

시작하기 전에

시작하기 전에 다음을 완료하세요.

Antigravity IDE용 데이터 에이전트 키트 확장 프로그램 설치
설정 구성
Antigravity IDE 작업공간에 GitHub 저장소를 추가하여 오케스트레이션 파이프라인과 스크립트 등의 애셋을 저장합니다.

필수 IAM 역할 검토

프로젝트에서 리소스를 만들고, 오케스트레이션 파이프라인을 배포하고 실행할 권한을 얻으려면 관리자에게 필요한 역할을 부여해 달라고 요청하세요.

Managed Service for Apache Airflow 환경을 만들고 관리하고 연결된 버킷의 객체를 관리하려면 다음 역할이 필요합니다. 이러한 사용자 역할에 대한 자세한 내용은 Managed Service for Apache Airflow 문서의 사용자에게 역할 부여를 참고하세요.

환경 및 스토리지 객체 관리자 (composer.environmentAndStorageObjectAdmin)
서비스 계정 사용자(iam.serviceAccountUser)

BigQuery 및 Cloud Storage 리소스를 사용하려면 다음 역할이 필요합니다.

BigQuery 데이터 편집자 (roles/bigquery.dataEditor)
스토리지 객체 관리자 (roles/storage.objectAdmin)

액세스하려는 리소스에 따라 확장 프로그램을 사용하고 오케스트레이션 파이프라인을 사용하여 작업할 수 있는 역할 외에 추가 역할이 필요할 수 있습니다.

서비스 계정 만들기 및 IAM 역할 부여

Managed Airflow 3세대 환경에 고유한 서비스 계정을 사용합니다. 서비스 계정은 Managed Airflow 3세대 환경을 만들고 배포하는 모든 오케스트레이션 파이프라인을 실행합니다.

관리자에게 다음 단계를 완료해 달라고 요청하세요.

IAM 문서에 설명된 대로 서비스 계정을 만듭니다.
서비스 계정에 Composer 작업자 (composer.worker) 역할을 부여합니다. 이 역할은 대부분의 경우 필요한 권한을 제공합니다.

Google Cloud 프로젝트에서 다른 리소스에 액세스해야 하는 경우 오케스트레이션 파이프라인 작업에 필요한 경우에만 이 서비스 계정에 추가 권한을 부여하는 것이 좋습니다.

조정 파이프라인의 Google Cloud 리소스를 만듭니다.

이 단계에서는 오케스트레이션 파이프라인의 Google Cloud 리소스를 만듭니다.

Managed Airflow 3세대 환경 만들기

다음 구성으로 Managed Airflow 3세대 환경을 만듭니다.

환경 이름: 나중에 오케스트레이션 파이프라인을 구성하는 데 사용할 이름을 입력합니다. 예를 들면 example-pipeline-scheduler입니다.
위치: 위치를 선택합니다. 이 가이드의 모든 리소스를 동일한 위치에 만드는 것이 좋습니다. 예를 들면 us-central1입니다.
서비스 계정: 이 환경에 대해 만든 서비스 계정을 선택합니다.

다음 Google Cloud CLI 명령어 예시에서는 문법을 보여줍니다.

gcloud composer environments create example-pipeline-scheduler \
  --location us-central1 \
  --image-version composer-3-airflow-2 \
  --service-account "example-account@example-project.iam.gserviceaccount.com"

스케줄러 구성에 환경 매개변수 추가

오케스트레이션 파이프라인을 실행할 Managed Airflow 환경의 연결 세부정보를 제공합니다.

Google Cloud 데이터 에이전트 키트 설정 편집기를 사용하여 만든 환경의 구성 매개변수를 추가합니다.

작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
설정을 펼친 다음 설정을 클릭합니다.
스케줄러를 선택합니다.
이전에 만든 Managed Airflow 3세대 환경의 매개변수를 입력합니다.
- 프로젝트 ID: 환경이 있는 프로젝트의 이름입니다. 예: example-project
- 리전: 환경이 위치한 리전입니다. 예를 들면 us-central1입니다.
- 환경: 환경 이름입니다. 예를 들면 example-pipeline-scheduler입니다.
저장을 클릭합니다.

파이프라인 아티팩트용 버킷 만들기

관리형 Airflow 환경과 동일한 프로젝트에 Cloud Storage 버킷을 만들고 example-pipelines-bucket와 비슷한 이름을 지정합니다. 이 버킷은 Managed Service for Apache Spark 작업을 저장하는 데 필요합니다.

Cloud Storage 버킷에 결과를 출력하는 등의 일부 파이프라인 작업

BigQuery에서 새 데이터 세트와 테이블 만들기

이 가이드에서는 BigQuery 테이블에 데이터를 쓰는 파이프라인을 보여줍니다. 프로젝트에서 다음 BigQuery 리소스를 만듭니다.

wordcount_dataset라는 새 데이터 세트를 만듭니다.
wordcount_output라는 새 BigQuery 테이블을 만듭니다.

파이프라인 애셋 추가

이 가이드에서는 PySpark를 사용하여 일반적인 데이터 엔지니어링 작업 (ETL: 추출, 변환, 로드)을 보여줍니다. BigQuery에서 읽고, 데이터를 변환(단어 수)하고, BigQuery에 다시 로드합니다.

비에이전트형

저장소의 /scripts 폴더에 다음 파일을 추가합니다. 나중에 Managed Service for Apache Spark에서 이 스크립트를 실행하는 파이프라인 작업을 추가합니다.

wordcount.py 파일 예시:

#!/usr/bin/python
"""BigQuery I/O PySpark example for Word Count"""

from pyspark.sql import SparkSession

spark = SparkSession \
.builder \
.appName('spark-bigquery-demo') \
.getOrCreate()

# Use the Cloud Storage bucket for temporary BigQuery export data used
# by the connector.
bucket = ARTIFACTS_BUCKET_NAME
spark.conf.set('temporaryGcsBucket', bucket)

# Load data from BigQuery public dataset (Shakespeare).
words = spark.read.format('bigquery') \
.option('table', 'bigquery-public-data:samples.shakespeare') \
.load()
words.createOrReplaceTempView('words')

# Perform word count using Spark SQL.
# This query counts occurrences of each word.
word_count = spark.sql(
    'SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word ORDER BY word_count DESC'
)
word_count.show()
word_count.printSchema()

# Saving the results to a new table in BigQuery.
# Replace YOUR_PROJECT_ID with your project ID.
destination_table = 'PROJECT_ID:wordcount_dataset.wordcount_output'
word_count.write.format('bigquery') \
.option('table', destination_table) \
.mode('overwrite') \
.save()

print(f"Successfully wrote word counts to BigQuery table: {destination_table}")

다음을 바꿉니다.

ARTIFACTS_BUCKET_NAME: 이전에 만든 Cloud Storage 버킷의 이름입니다. 예: example-pipelines-bucket
PROJECT_ID: 환경이 있는 프로젝트의 이름입니다. 예: example-project

에이전트형

에이전트에게 저장소의 /scripts 폴더에 샘플 PySpark 스크립트를 생성하도록 요청합니다. 나중에 Managed Service for Apache Spark에서 이 스크립트를 실행하는 파이프라인 작업을 추가합니다.

다음과 비슷한 프롬프트를 입력합니다.

I want to create a PySpark script that does the following:

1. Loads data from the bigquery-public-data:samples.shakespeare.
2. Counts occurrences of each word across all works using a Spark SQL query.
Sum the existing word counts for each word to get the total occurrences.
I want the results to be ordered by the word popularity, most popular first.
3. Saves results to a new table in BigQuery, in my project.

My project is sample-project, the destination table is
wordcount_dataset.wordcount_output, and I want to store temporary BigQuery
export data in example-pipelines-bucket.

Save the resulting script to /scripts as wordcount.py

저장소에서 오케스트레이션 파이프라인 초기화

오케스트레이션 파이프라인을 초기화하면 Antigravity IDE용 Data Agent Kit 확장 프로그램이 다음을 포함하는 스캐폴딩을 만듭니다.

조정 파이프라인 YAML 파일: 정의된 작업이 없지만 일정이 포함된 파이프라인 정의의 예입니다.
deployment.yaml: 파이프라인이 배포되는 방식을 정의하는 파이프라인 배포 구성의 예입니다. 이 파일은 Managed Airflow 환경, 아티팩트 버킷, 파이프라인 작업에서 사용하는 기타 리소스에 필요한 구성을 보여줍니다.
.github/workflows/deploy.yaml: GitHub 저장소의 main 브랜치에 변경사항을 병합할 때 파이프라인을 배포하는 GitHub 작업을 설정합니다.
.github/workflows/validate.yaml: 파이프라인이 배포된 후 파이프라인을 검증하는 GitHub 작업을 설정합니다.

이 문서의 후반 단계에서는 Antigravity IDE용 데이터 에이전트 키트 확장 프로그램을 사용하여 이러한 정의를 확장하여 오케스트레이션 파이프라인을 로컬로 만들고 배포합니다.

비에이전트형

오케스트레이션 파이프라인을 초기화하려면 다음 단계를 따르세요.

작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
데이터 엔지니어링을 펼친 다음 오케스트레이션 파이프라인 초기화를 클릭합니다.
새 오케스트레이션 파이프라인의 매개변수를 입력합니다.
파이프라인 ID: 파이프라인의 ID를 입력합니다. 예: example-pipeline
Google Cloud 프로젝트 ID: 환경이 있는 프로젝트의 이름입니다. 예: example-project
리전: 환경이 있는 리전입니다. 예를 들면 us-central1입니다.
환경 ID: 개발에 사용할 환경의 이름입니다. 예: dev/staging
Scheduler Managed Service for Apache Airflow 환경: 파이프라인을 조정하려는 환경의 이름입니다. 이 문서의 경우 이 매개변수에서 동일한 환경을 지정합니다.

참고: Antigravity IDE용 Data Agent Kit 확장 프로그램은 파이프라인을 배포 및 실행하고 실행을 모니터링하는 별도의 옵션을 제공합니다. 예를 들어 개발 환경에 파이프라인을 배포하고 프로덕션 환경을 모니터링할 수 있습니다.
아티팩트 버킷: 파이프라인 아티팩트에 사용되는 버킷의 이름입니다(gs:// 접두사 제외). 예를 들면 example-pipelines-bucket입니다.
다음을 클릭합니다.
초기화를 클릭합니다.
파이프라인을 초기화할 작업공간을 지정합니다.

에이전트형

에이전트에게 저장소의 오케스트레이션 파이프라인을 위한 스캐폴딩을 만들라고 요청합니다.

다음과 비슷한 프롬프트를 입력합니다.

Initialize orchestration pipelines in my repository. Don't add any actions
or schedule yet. I want to do it later.

The pipeline is my-sample-pipeline, the project ID is my-project, and the
region is us-central1.

The environment ID is my-test-environment. Use the same environment ID for
the Scheduler Managed Service.

Store pipeline artifacts in example-pipelines-bucket.

저장소에서 파이프라인을 초기화한 후에는 새 스캐폴딩이 사용자가 변경한 구성을 덮어쓰기 때문에 다시 초기화할 수 없습니다. 프로젝트에서 새 파이프라인 정의 파일을 만들고 이를 배포 구성에 추가하여 새 파이프라인을 추가할 수 있습니다.

파이프라인에 새 태스크 추가

초기 파이프라인 구성에는 작업이 없으므로 PySpark 스크립트를 실행하는 작업을 추가합니다.

비에이전트형

파이프라인을 수정하려면 다음 단계를 따르세요.

작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
데이터 엔지니어링을 펼친 후 오케스트레이션 파이프라인을 펼칩니다.
example-pipeline.yaml을 선택합니다. 선택한 파이프라인의 파이프라인 편집기가 열립니다.
선택사항: 일정 트리거 노드를 선택합니다. 크론과 유사한 표현식과 일정 시작 및 종료 시간을 지정하여 파이프라인의 일정을 조정할 수 있습니다. 새로 초기화된 파이프라인의 기본 일정은 0 2 * * *이며, 매일 오전 2시에 실행됩니다.

새 할 일을 추가합니다. 이 가이드에서는 이전에 추가한 PySpark 스크립트를 실행하는 PySpark 작업을 추가합니다.
1. 첫 번째 작업 추가를 클릭하여 새 작업 노드를 추가합니다.
2. PySpark 스크립트 실행 및 script/wordcount.py 파일을 선택합니다.
PySpark 스크립트 실행 패널이 열립니다.
1. Spark 클러스터 모드에서 서버리스 Spark을 선택합니다.
2. 위치에서 환경이 있는 위치를 지정합니다. 예: us-central1
3. 저장을 클릭합니다.

에이전트형

다음 프롬프트를 실행합니다.

Add the wordcount.py script to the pipeline. I want to run it in Serverless
Spark every day at 1 AM. Run it in the same region where the environment that
runs my pipeline is located. Use the minimal resource profile.

파이프라인의 로컬 버전 배포

파이프라인의 로컬 버전을 배포하여 올바르게 구성되었는지 확인합니다.

오케스트레이션 파이프라인의 로컬 버전을 배포하면 Antigravity IDE용 Data Agent Kit 확장 프로그램이 파이프라인 번들의 로컬 버전을 Managed Airflow 환경에 업로드하고 실행합니다. 로컬 배포는 개발 환경에서 작업할 때 사용하도록 설계되었습니다.

deploy 명령어는 일시중지되지 않은 일정을 배포합니다. 이를 방지하려면 파이프라인 관리 창에서 일정을 수동으로 일시중지하면 됩니다. 파이프라인 YAML 파일을 수정하여 triggers: - schedule 블록을 주석 처리하거나 삭제할 수도 있습니다.

비에이전트형

예시 오케스트레이션 파이프라인의 로컬 버전을 배포하려면 다음 단계를 따르세요.

작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
데이터 엔지니어링을 펼친 후 오케스트레이션 파이프라인을 펼칩니다.
example-pipeline.yaml을 선택합니다. 선택한 파이프라인의 파이프라인 편집기가 열립니다.
파이프라인 실행을 선택한 다음 이전에 만든 개발 또는 스테이징 환경을 선택합니다.

에이전트형

다음 프롬프트를 실행합니다.

Deploy my pipeline

파이프라인 실행 모니터링 및 실행 로그 확인

파이프라인이 배포되면 파이프라인의 세부정보, 파이프라인 실행 기록, 파이프라인 실행 로그를 확인할 수 있습니다.

작업 표시줄에서 Google Cloud Data Agent Kit 아이콘을 클릭합니다.
데이터 엔지니어링을 펼친 다음 파이프라인 관리를 선택합니다.
파이프라인 이름 (example-pipeline)을 클릭하여 실행 기록을 확인합니다. 특정 날짜의 실행 목록에서 개별 파이프라인 실행과 각 파이프라인 실행 내 개별 작업의 세부정보를 확인할 수 있습니다.
태스크 ID를 클릭하여 태스크 실행 로그를 확인합니다. 예시 PySpark 스크립트가 Managed Service for Apache Spark에서 실행되었으므로 작업 로그에 일괄 로그 링크가 있습니다.

파이프라인 오류 문제 해결

파이프라인이 실패하면 파이프라인 관리 창에 진단 버튼이 표시됩니다.

에이전트형

진단 버튼을 클릭하면 에이전트가 파이프라인 오류를 해결하기 위한 프롬프트를 생성합니다. 프롬프트가 클립보드에 복사되거나 새 채팅 세션에서 열립니다.

에이전트는 전문 기술을 사용하여 파이프라인 문제를 해결하며, 로그 수집, 배포된 코드와 워크스페이스 교차 확인, 근본 원인 분석 (RCA) 생성에 중점을 둡니다.

RCA를 받은 후 가능한 다음 단계는 다음과 같습니다.

현재 작업공간에 근본 원인 분석을 적용합니다.
에이전트에게 새 브랜치를 만들고 변경사항을 적용해 달라고 요청합니다.
RCA 세부정보를 포함하여 Cloud Customer Care 티켓을 엽니다.

확장 프로그램 문제를 해결하는 데 도움이 필요하면 문제 해결을 참고하세요.

데이터 엔지니어링 파이프라인 빌드 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

시작하기 전에

필수 IAM 역할 검토

서비스 계정 만들기 및 IAM 역할 부여

조정 파이프라인의 Google Cloud 리소스를 만듭니다.

Managed Airflow 3세대 환경 만들기

스케줄러 구성에 환경 매개변수 추가

파이프라인 아티팩트용 버킷 만들기

BigQuery에서 새 데이터 세트와 테이블 만들기

파이프라인 애셋 추가

비에이전트형

에이전트형

저장소에서 오케스트레이션 파이프라인 초기화

비에이전트형

에이전트형

파이프라인에 새 태스크 추가

비에이전트형

에이전트형

파이프라인의 로컬 버전 배포

비에이전트형

에이전트형

파이프라인 실행 모니터링 및 실행 로그 확인

파이프라인 오류 문제 해결

에이전트형

다음 단계

데이터 엔지니어링 파이프라인 빌드