Google Cloud Data Agent Kit 拡張機能の Data Engineering Agent は、統合開発環境(IDE)で オーケストレーション パイプライン の作成と構築を支援します。Gemini を活用することで、Data Engineering Agent は自然 言語インターフェースを提供し、複雑なオーケストレーションワークフローの生成、変更、管理を自動化します。 Google Cloud
Data Agent Kit 拡張機能は VS Codeでサポートされています。
Data Engineering Agent は、次の一般的なデータ エンジニアリング タスクをサポートしています。
- オーケストレーション パイプラインの作成: 空の ワークスペースに新しいパイプラインを生成するか、既存のプロジェクトに追加のパイプラインを追加します。
- パイプライン構造の変更: 自然言語を使用して、オーケストレーション パイプライン内の個々のアクションを追加、削除、または 更新します。
- 実行メタデータの管理: パイプライン名を変更し、実行 スケジュールを更新します(手動から毎日に変更するなど)。
- パイプライン実行のトラブルシューティング: 失敗した パイプライン実行の根本原因をプロアクティブに特定し、エージェントが推奨する修正を適用します。
始める前に
IDE で Data Engineering Agent を使用する前に、このセクションの手順を行います。
- Visual Studio Code 用の Data Agent Kit 拡張機能をインストールします。 Data Engineering Agent は Data Agent Kit 拡張機能に含まれています。
Gemini Data Analytics API と Dataform API を有効にします。
Managed Service for Apache Airflow で環境を構成します。 Managed Service for Apache Airflow のデフォルトの環境構成を使用します。 次に、Data Agent Kit 拡張機能の [Scheduler]設定で、Managed Service for Apache Airflow 環境の名前、環境がホストされている Google Cloud プロジェクトの ID、環境がある リージョンを入力します。
必要なロール
Data Engineering Agent とその基盤となるサービスを操作するために必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。
-
Gemini データ分析ステートレス チャット ユーザー (
roles/geminidataanalytics.dataAgentStatelessUser) -
Dataform コードエディタ (
roles/dataform.codeEditor) -
BigQuery ジョブユーザー (
roles/bigquery.jobUser) -
環境を一覧表示して Apache Airflow DAG を管理するには:
Composer ユーザー (
roles/composer.user) -
指定された Managed Airflow 環境サービス アカウントを使用してオーケストレーション パイプラインをデプロイするか、パイプラインを更新するには:
サービス アカウント ユーザー (
roles/iam.serviceAccountUser)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタム ロールや他の事前定義 ロールから取得することもできます。
ベスト プラクティス
- エージェントはマルチステップ ループに従います。エージェントはまず、承認のためのプランを生成します。次に、エージェントはアクションを実行します(コードの記述など)。最後に、エージェントはドライランまたはテストを使用して結果を確認します。
- エージェントのパフォーマンスは、ワークスペースで開いているファイルによって異なります。
@file構文を使用するか、関連する SQLX ファイルを開いて、オーケストレーション ロジックを構築するために必要なコンテキストをエージェントに提供します。
オーケストレーション パイプラインを作成する
空のワークスペースにオーケストレーション パイプラインを作成するか、既存のワークスペースに追加のオーケストレーション パイプラインを追加するには、次の操作を行います。
- Data Agent Kit 拡張機能がインストールされている IDE を開きます。
- [エージェントに質問] パネルを開きます。
自然言語プロンプトを入力して、オーケストレーション パイプラインを生成します。次に例を示します。
Create an orchestration pipeline that unifies my Google Ads and YouTube Ads data into a single marketing table.プロンプトを入力したら、[送信] をクリックします。
生成されたパイプライン構造を確認し、変更を適用します。
パイプラインのスケジュールを更新する
オーケストレーション パイプライン名を変更するか、実行スケジュールを更新する(手動から毎日に変更するなど)には、次の操作を行います。
- Data Agent Kit 拡張機能がインストールされている IDE を開きます。
- 既存のオーケストレーション パイプライン構成に移動します。
- [エージェントに質問] パネルを開きます。
自然言語プロンプトを入力して、パイプラインのスケジュールを更新します。次に例を示します。
Update the execution schedule for this pipeline to run daily at 2 AM.エージェントは、基盤となる構成(Apache Airflow DAG の設定など)を更新します。
更新されたパイプラインのスケジュールを確認して保存します。
パイプライン アクションを変更する
オーケストレーション パイプライン内の個々のアクションを追加または削除するには、次の操作を行います。
- Data Agent Kit 拡張機能がインストールされている IDE を開きます。
- 追加または削除するパイプライン アクションを特定します。
- [エージェントに質問] パネルを開きます。
自然言語プロンプトを入力して、パイプライン アクションを変更します。次に例を示します。
Add a new action to the pipeline that runs the daily_sales_aggregation table task.更新されたパイプライン定義を確認して保存します。
トラブルシューティング
オーケストレーション パイプラインの生成中にエラーが発生した場合は、Data Engineering Agent の実行に必要な前提条件をすべて満たしていることを確認してください。詳細については、 始める前にをご覧ください。
失敗したオーケストレーションまたはデータ パイプラインの実行をトラブルシューティングするには、次の操作を行います。
- Data Agent Kit 拡張機能がインストールされている IDE を開きます。
- パイプラインまたは開発ワークスペースで、[実行] タブをクリックします。
- 実行リストから、失敗したデータ パイプラインの実行を見つけます。失敗した実行は、実行の [ステータス] 列で確認できます。
- 失敗アイコンにカーソルを合わせ、[調査] をクリックします。Data Engineering Agent はログを分析し、スキーマのドリフトやデータ型の不一致などの根本原因を特定します。
- [エージェントに質問] パネルで、推奨される修正を確認します。
- 問題を解決するには、
Apply the suggested fix to the pipelineなどのプロンプトを入力します。または、エージェントの分析に基づいて SQLX コードを手動で更新することもできます。
次のステップ
- Data Engineering Agent を使用して、Google Cloud CLI コマンドでオーケストレーション パイプラインを構築、変更する方法を学習する 。
- Data Engineering Agent を使用して、コンソールでデータ パイプラインを構築、変更する方法を学習する。 Google Cloud