Google Cloud Data Agent Kit 扩展程序中的数据工程智能体可帮助您在集成开发环境 (IDE) 中创建和构建编排流水线。通过利用 Gemini for Google Cloud,数据工程智能体提供自然语言界面,可自动生成、修改和管理复杂的编排工作流。
VS Code 支持 Data Agent Kit 扩展程序。
Data Engineering Agent 支持以下常见的数据工程任务:
- 创建编排流水线:在空白工作区中生成新流水线,或向现有项目添加其他流水线。
- 修改流水线结构:使用自然语言在编排流水线中添加、移除或更新单个操作。
- 管理执行元数据:更改流水线名称并更新执行时间表,例如从手动运行更改为每日运行。
- 排查流水线运行问题:主动找出流水线运行失败的根本原因,并应用代理建议的修复。
准备工作
在 IDE 中使用数据工程智能体之前,请执行本部分中的步骤。
- 安装 Visual Studio Code 的 Data Agent Kit 扩展程序。数据工程智能体包含在 Data Agent Kit 扩展程序中。
启用 Gemini Data Analytics API 和 Dataform API。
在 Managed Service for Apache Airflow 中配置环境。使用默认的 Managed Service for Apache Airflow 环境配置。然后,在 Data Agent Kit 扩展程序的 Scheduler 设置中,输入您的 Managed Service for Apache Airflow 环境的名称、托管该环境的Google Cloud 项目的 ID,以及该环境所在的区域。
所需的角色
如需获得与 Data Engineering Agent 及其底层服务互动所需的权限,请让管理员为您授予项目的以下 IAM 角色:
- Gemini Data Analytics Stateless Chat User (
roles/geminidataanalytics.dataAgentStatelessUser) - Dataform Code Editor (
roles/dataform.codeEditor) - BigQuery Job User (
roles/bigquery.jobUser) -
列出环境和管理 Apache Airflow DAG:Composer User (
roles/composer.user) -
如需使用指定的 Managed Airflow 环境服务账号部署编排流水线或更新流水线,请授予以下角色:
Service Account User (
roles/iam.serviceAccountUser)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
最佳做法
- 请注意,代理会遵循多步骤循环。代理会先生成一个计划供您审批。接下来,代理会执行操作(例如,编写代码)。最后,代理会使用模拟运行或测试来验证结果。
- 智能体的表现取决于工作区中打开的文件。使用
@file语法或打开相关的 SQLX 文件,为代理提供必要的上下文,以便其构建编排逻辑。
创建编排流水线
如需在空白工作区中创建编排流水线,或向现有工作区添加其他编排流水线,请执行以下操作:
- 打开已安装 Data Agent Kit 扩展程序的 IDE。
- 打开向代理提问面板。
输入自然语言提示,生成编排流水线。例如:
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.输入提示后,点击发送。
查看生成的流水线结构并应用更改。
更新流水线时间表
如需更改编排流水线名称或更新执行时间表(例如,从手动更改为每天),请执行以下操作:
- 打开已安装 Data Agent Kit 扩展程序的 IDE。
- 前往现有的编排流水线配置。
- 打开向代理提问面板。
输入自然语言提示,以更新流水线时间表。例如:
Update the execution schedule for this pipeline to run daily at 2 AM.代理会更新底层配置,例如 Apache Airflow DAG 设置。
查看并保存更新后的流水线时间表。
修改流水线操作
如需在编排流水线中添加或删除单个操作,请执行以下操作:
- 打开已安装 Data Agent Kit 扩展程序的 IDE。
- 确定要添加或删除的流水线操作。
- 打开向代理提问面板。
输入自然语言提示以修改流水线操作。例如:
Add a new action to the pipeline that runs the daily_sales_aggregation table task.查看并保存更新后的流水线定义。
问题排查
如果您在编排流水线生成过程中遇到任何错误,请确保您已完成运行数据工程代理所需的所有前提条件。如需了解详情,请参阅准备工作。
如需排查编排或数据流水线运行失败的问题,请执行以下操作:
- 打开已安装 Data Agent Kit 扩展程序的 IDE。
- 在流水线或开发工作区中,点击执行标签页。
- 在执行列表的状态列中,找到失败的数据流水线运行。
- 将鼠标悬停在失败图标上,然后点击调查。Data Engineering Agent 会分析日志并确定根本原因,例如架构漂移或数据类型不匹配。
- 在向智能体提问面板中,查看建议的修正方案。
- 如需解决此问题,请输入提示,例如
Apply the suggested fix to the pipeline。或者,您也可以根据代理的分析结果手动更新 SQLX 代码。
后续步骤
- 了解如何部署编排流水线。
- 了解如何创建执行编排流水线的 runner 环境。
- 了解如何手动定义和微调流水线及部署配置。
- 了解如何使用 Google Cloud CLI 命令构建和修改编排流水线。
- 了解如何使用 Data Engineering Agent 在 Google Cloud 控制台中构建和修改数据流水线。