Google Cloud 데이터 에이전트 키트 확장 프로그램 내의 데이터 엔지니어링 에이전트는 통합 개발 환경 (IDE)에서 조정 파이프라인을 만들고 빌드하는 데 도움이 될 수 있습니다. Gemini를 활용하여 데이터 엔지니어링 에이전트는 자연어 인터페이스를 제공하여 복잡한 조정 워크플로의 생성, 수정, 관리를 자동화합니다. Google Cloud
데이터 에이전트 키트 확장 프로그램은 VS Code에서 지원됩니다.
데이터 엔지니어링 에이전트는 다음과 같은 일반적인 데이터 엔지니어링 작업을 지원합니다.
- 조정 파이프라인 만들기: 빈 작업공간에서 새 파이프라인을 생성하거나 기존 프로젝트에 파이프라인을 추가합니다.
- 파이프라인 구조 수정: 자연어를 사용하여 조정 파이프라인 내에서 개별 작업을 추가, 삭제 또는 업데이트합니다.
- 실행 메타데이터 관리: 파이프라인 이름을 변경하고 실행 일정을 업데이트합니다(예: 수동에서 일일 실행으로).
- 파이프라인 실행 문제 해결: 실패한 파이프라인 실행의 근본 원인을 사전에 파악하고 에이전트가 제안한 수정사항을 적용합니다.
시작하기 전에
IDE에서 데이터 엔지니어링 에이전트를 사용하기 전에 이 섹션의 단계를 수행하세요.
- Visual Studio Code용 데이터 에이전트 키트 확장 프로그램을 설치합니다. 데이터 엔지니어링 에이전트는 데이터 에이전트 키트 확장 프로그램에 포함되어 있습니다.
Gemini 데이터 분석 API 및 Dataform API를 사용 설정합니다.
Managed Service for Apache Airflow에서 환경을 구성합니다. 기본 Managed Service for Apache Airflow 환경 구성을 사용합니다. 그런 다음 데이터 에이전트 키트 확장 프로그램의 스케줄러 설정에서 Managed Service for Apache Airflow 환경의 이름, 환경이 호스팅되는 Google Cloud 프로젝트의 ID, 환경이 있는 리전을 입력합니다.
필요한 역할
데이터 엔지니어링 에이전트 및 기본 서비스와 상호작용하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 다음 IAM 역할을 부여해 달라고 요청하세요.
-
Gemini 데이터 분석 스테이트리스(Stateless) 채팅 사용자 (
roles/geminidataanalytics.dataAgentStatelessUser) -
Dataform 코드 편집자 (
roles/dataform.codeEditor) -
BigQuery 작업 사용자 (
roles/bigquery.jobUser) -
환경을 나열하고 Apache Airflow DAG를 관리하려면:
Composer 사용자 (
roles/composer.user) -
지정된 Managed Airflow 환경 서비스 계정을 사용하여 조정 파이프라인을 배포하거나 파이프라인을 업데이트하려면:
서비스 계정 사용자 (
roles/iam.serviceAccountUser)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
권장사항
- 에이전트는 여러 단계로 이루어진 루프를 따릅니다. 에이전트는 먼저 승인을 위한 계획을 생성합니다. 다음으로 에이전트는 작업을 실행합니다 (예: 코드 작성). 마지막으로 에이전트는 드라이 런 또는 테스트를 사용하여 결과를 확인합니다.
- 에이전트의 성능은 작업공간에서 열려 있는 파일에 따라 다릅니다.
@file구문을 사용하거나 관련 SQLX 파일을 열어 에이전트가 조정 로직을 빌드하는 데 필요한 컨텍스트를 제공합니다.
조정 파이프라인 만들기
빈 작업공간에서 조정 파이프라인을 만들거나 기존 작업공간에 조정 파이프라인을 추가하려면 다음 단계를 따르세요.
- 데이터 에이전트 키트 확장 프로그램이 설치된 IDE를 엽니다.
- 에이전트에게 질문 패널을 엽니다.
자연어 프롬프트를 입력하여 조정 파이프라인을 생성합니다. 예를 들면 다음과 같습니다.
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.프롬프트를 입력한 후 보내기 를 클릭합니다.
생성된 파이프라인 구조를 검토하고 변경사항을 적용합니다.
파이프라인 일정 업데이트
조정 파이프라인 이름을 변경하거나 실행 일정을 업데이트하려면(예: 수동에서 일일로) 다음 단계를 따르세요.
- 데이터 에이전트 키트 확장 프로그램이 설치된 IDE를 엽니다.
- 기존 조정 파이프라인 구성으로 이동합니다.
- 에이전트에게 질문 패널을 엽니다.
자연어 프롬프트를 입력하여 파이프라인 일정을 업데이트합니다. 예를 들면 다음과 같습니다.
Update the execution schedule for this pipeline to run daily at 2 AM.에이전트는 기본 구성(예: Apache Airflow DAG 설정)을 업데이트합니다.
업데이트된 파이프라인 일정을 검토하고 저장합니다.
파이프라인 작업 수정
조정 파이프라인에서 개별 작업을 추가하거나 삭제하려면 다음 단계를 따르세요.
- 데이터 에이전트 키트 확장 프로그램이 설치된 IDE를 엽니다.
- 추가하거나 삭제할 파이프라인 작업을 식별합니다.
- 에이전트에게 질문 패널을 엽니다.
자연어 프롬프트를 입력하여 파이프라인 작업을 수정합니다. 예를 들면 다음과 같습니다.
Add a new action to the pipeline that runs the daily_sales_aggregation table task.업데이트된 파이프라인 정의를 검토하고 저장합니다.
문제 해결
조정 파이프라인 생성 중에 오류가 발생하면 데이터 엔지니어링 에이전트를 실행하는 데 필요한 모든 필수사항을 완료했는지 확인합니다. 자세한 내용은 시작하기 전에를 참조하세요.
실패한 조정 또는 데이터 파이프라인 실행 문제를 해결하려면 다음 단계를 따르세요.
- 데이터 에이전트 키트 확장 프로그램이 설치된 IDE를 엽니다.
- 파이프라인 또는 개발 작업공간에서 실행 탭을 클릭합니다.
- 실행 목록에서 실패한 데이터 파이프라인 실행을 찾습니다. 실행 실행의 상태 열에서 실패한 실행을 식별할 수 있습니다.
- 실패 아이콘 위로 마우스를 가져간 다음 조사 를 클릭합니다. 데이터 엔지니어링 에이전트는 로그를 분석하고 스키마 드리프트 또는 데이터 유형 불일치와 같은 근본 원인을 파악합니다.
- 에이전트에게 질문 패널에서 제안된 수정사항을 검토합니다.
- 문제를 해결하려면
Apply the suggested fix to the pipeline과 같은 프롬프트를 입력합니다. 또는 에이전트의 분석에 따라 SQLX 코드를 수동으로 업데이트할 수 있습니다.
다음 단계
- 데이터 엔지니어링 에이전트를 사용하여 Google Cloud CLI 명령어로 조정 파이프라인을 빌드하고 수정하는 방법을 알아봅니다.
- 데이터 엔지니어링 에이전트를 사용하여 콘솔에서 데이터 파이프라인을 빌드하고 수정하는 방법을 알아봅니다. Google Cloud