Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

データエンジニアリングパイプラインを構築する

このガイドでは、Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能でオーケストレーションパイプラインを作成してデプロイする方法について説明します。

サンプルパイプラインは、Managed Service for Apache Spark で PySpark スクリプトを実行します。

VS Code からオーケストレーションパイプラインをローカルバージョンとしてデプロイすることも、main ブランチへの変更のマージ時など、GitHub アクションを介してデプロイすることもできます。このドキュメントでは、オーケストレーションパイプラインのローカルバージョンをデプロイする方法について説明します。

始める前に

始める前に、次の操作を行います。

VS Code 用の Data Agent Kit 拡張機能をインストールします。
設定を構成します。
オーケストレーションパイプラインやスクリプトなどのアセットを保存するために、GitHub リポジトリを VS Code ワークスペースに追加します。

必要な IAM ロールを確認する

プロジェクトでリソースを作成し、オーケストレーションパイプラインをデプロイして実行する権限を取得するには、必要なロールを付与するよう管理者に依頼してください。

Managed Service for Apache Airflow 環境を作成して管理し、関連するバケット内のオブジェクトを管理するには、次のロールが必要です。これらのユーザーロールの詳細については、Managed Service for Apache Airflow ドキュメントのユーザーにロールを付与するをご覧ください。

環境と Storage オブジェクトの管理者 （composer.environmentAndStorageObjectAdmin）
サービスアカウントユーザー （iam.serviceAccountUser）

BigQuery リソースと Cloud Storage リソースを操作するには、次のロールが必要です。

BigQuery データ編集者 （roles/bigquery.dataEditor）
Storage オブジェクト管理者 （roles/storage.objectAdmin）

アクセスするリソースによっては、拡張機能を使用してオーケストレーションパイプラインを操作できるロール以外にも、追加のロールが必要になる場合があります。

サービスアカウントを作成して IAM ロールを付与する

Managed Airflow Gen 3 環境には、一意のサービスアカウントを使用します。このサービスアカウントは、Managed Airflow Gen 3 環境を作成し、デプロイするすべてのオーケストレーションパイプラインを実行します。

管理者に次の手順を完了するよう依頼してください。

IAM ドキュメントの説明に沿って、サービスアカウントを作成します。
サービスアカウントにComposer ワーカー （composer.worker）ロールを付与します。このロールは、ほとんどの場合に必要な権限を提供します。

ベストプラクティスとして、プロジェクト内の他のリソースにアクセスする必要がある場合は、オーケストレーションパイプラインのオペレーションに必要な場合にのみ、このサービスアカウントに追加の権限を付与してください。Google Cloud

オーケストレーションパイプラインのリソースを作成する Google Cloud

このステップでは、オーケストレーションパイプラインのリソースを作成します。 Google Cloud

Managed Airflow Gen 3 環境を作成する

次の構成で Managed Airflow Gen 3 環境を作成します。

環境名: 後でオーケストレーションパイプラインの構成に使用する名前を入力します。例: example-pipeline-scheduler。
ロケーション: ロケーションを選択します。このガイドのすべてのリソースを同じロケーションに作成することをおすすめします。例: us-central1。
サービスアカウント: この環境用に作成したサービスアカウントを選択します。

次の Google Cloud CLI コマンドの例は、構文を示しています。

gcloud composer environments create example-pipeline-scheduler \
  --location us-central1 \
  --image-version composer-3-airflow-2 \
  --service-account "example-account@example-project.iam.gserviceaccount.com"

スケジューラ構成に環境パラメータを追加する

オーケストレーションパイプラインを実行する Managed Airflow 環境の接続の詳細を指定します。

Google Cloud Data Agent Kit Settings エディタを使用して作成した環境の構成パラメータを追加します。

アクティビティバーの [Google Cloud Data Agent Kit] アイコンをクリックします。
[設定] を展開し、[設定] をクリックします。
[スケジューラ] を選択します。
前に作成した Managed Airflow Gen 3 環境のパラメータを入力します。
- プロジェクト ID: 環境が存在するプロジェクトの名前。例: example-project。
- リージョン: 環境が存在するリージョン。例: us-central1。
- 環境: 環境の名前。例: example-pipeline-scheduler。
[保存] をクリックします。

パイプラインアーティファクトのバケットを作成する

Cloud Storage バケットを作成し、 Managed Airflow 環境と同じプロジェクトに配置して、 example-pipelines-bucket のような名前を付けます。このバケットは、Managed Service for Apache Spark ジョブを保存するために必要です。

一部のパイプラインアクション（結果を Cloud Storage バケットに出力するなど）。

BigQuery で新しいデータセットとテーブルを作成する

このガイドでは、BigQuery テーブルにデータを書き込むパイプラインについて説明します。プロジェクトに次の BigQuery リソースを作成します。

新しいデータセットを作成します名前は wordcount_dataset です。
新しい BigQuery テーブルを wordcount_output という名前で作成します。

パイプラインアセットを追加する

このガイドでは、PySpark を使用して一般的なデータエンジニアリングタスク（ETL: 抽出、変換、読み込み）を示します。BigQuery から読み取り、データを変換（ワードカウント）して、BigQuery に読み込みます。

エージェントを使用しない

次のファイルをリポジトリの /scripts フォルダに追加します。後で、このスクリプトを Managed Service for Apache Spark で実行するパイプラインアクションを追加します。

wordcount.py ファイルの例:

#!/usr/bin/python
"""BigQuery I/O PySpark example for Word Count"""

from pyspark.sql import SparkSession

spark = SparkSession \
.builder \
.appName('spark-bigquery-demo') \
.getOrCreate()

# Use the Cloud Storage bucket for temporary BigQuery export data used
# by the connector.
bucket = ARTIFACTS_BUCKET_NAME
spark.conf.set('temporaryGcsBucket', bucket)

# Load data from BigQuery public dataset (Shakespeare).
words = spark.read.format('bigquery') \
.option('table', 'bigquery-public-data:samples.shakespeare') \
.load()
words.createOrReplaceTempView('words')

# Perform word count using Spark SQL.
# This query counts occurrences of each word.
word_count = spark.sql(
    'SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word ORDER BY word_count DESC'
)
word_count.show()
word_count.printSchema()

# Saving the results to a new table in BigQuery.
# Replace YOUR_PROJECT_ID with your project ID.
destination_table = 'PROJECT_ID:wordcount_dataset.wordcount_output'
word_count.write.format('bigquery') \
.option('table', destination_table) \
.mode('overwrite') \
.save()

print(f"Successfully wrote word counts to BigQuery table: {destination_table}")

次のように置き換えます。

ARTIFACTS_BUCKET_NAME：前に作成した Cloud Storage バケットの名前。例: example-pipelines-bucket。
PROJECT_ID: 環境が存在するプロジェクトの名前。例: example-project。

エージェントを使用する

エージェントに、リポジトリの /scripts フォルダにサンプル PySpark スクリプトを生成するように指示します。後で、このスクリプトを Managed Service for Apache Spark で実行するパイプラインアクションを追加します。

次のようなプロンプトを入力します。

I want to create a PySpark script that does the following:

1. Loads data from the bigquery-public-data:samples.shakespeare.
2. Counts occurrences of each word across all works using a Spark SQL query.
Sum the existing word counts for each word to get the total occurrences.
I want the results to be ordered by the word popularity, most popular first.
3. Saves results to a new table in BigQuery, in my project.

My project is sample-project, the destination table is
wordcount_dataset.wordcount_output, and I want to store temporary BigQuery
export data in example-pipelines-bucket.

Save the resulting script to /scripts as wordcount.py

リポジトリでオーケストレーションパイプラインを初期化する

オーケストレーションパイプラインを初期化すると、VS Code 用の Data Agent Kit 拡張機能により、次のものを含むスキャフォールディングが作成されます。

オーケストレーションパイプライン YAML ファイル: スケジュールを含むが、アクションが定義されていないパイプライン定義の例。
deployment.yaml: パイプラインのデプロイ方法を定義するパイプラインデプロイ構成の例。このファイルは、Managed Airflow 環境、アーティファクトバケット、パイプラインアクションで使用されるその他のリソースに必要な構成を示しています。
.github/workflows/deploy.yaml: GitHub リポジトリの main ブランチに変更をマージすると、パイプラインをデプロイする GitHub アクションを設定します。
.github/workflows/validate.yaml: パイプラインのデプロイ後に検証する GitHub アクションを設定します。

このドキュメントの後のステップでは、VS Code 用の Data Agent Kit 拡張機能を使用してこれらの定義を拡張し、オーケストレーションパイプラインをローカルで作成してデプロイします。

エージェントを使用しない

オーケストレーションパイプラインを初期化する手順は次のとおりです。

アクティビティバーの [Google Cloud Data Agent Kit] アイコンをクリックします。
[Data Engineering] を展開し、[Initialize orchestration pipeline] をクリックします。
新しいオーケストレーションパイプラインのパラメータを入力します。
パイプライン ID: パイプラインの ID を入力します。例: example-pipeline。
Google Cloud プロジェクト ID: 環境が存在するプロジェクトの名前。例: example-project。
リージョン: 環境が存在するリージョン。例: us-central1。
環境 ID: 開発に使用する環境の名前。例: dev/staging。
Scheduler Managed Service for Apache Airflow Environment: パイプラインをオーケストレートする環境の名前。このドキュメントでは、このパラメータに同じ環境を指定します。

注: VS Code 用の Data Agent Kit 拡張機能には、パイプラインのデプロイと実行、実行のモニタリングを行うための個別のオプションが用意されています。たとえば、パイプラインを開発環境にデプロイし、本番環境をモニタリングできます。
アーティファクトバケット: パイプラインアーティファクトに使用されるバケットの名前（ gs:// 接頭辞なし）。例: example-pipelines-bucket。
[次へ] をクリックします。
[Initialize] をクリックします。
パイプラインを初期化するワークスペースを指定します。

エージェントを使用する

エージェントに、リポジトリのオーケストレーションパイプラインのスキャフォールディングを作成するように指示します。

次のようなプロンプトを入力します。

Initialize orchestration pipelines in my repository. Don't add any actions
or schedule yet. I want to do it later.

The pipeline is my-sample-pipeline, the project ID is my-project, and the
region is us-central1.

The environment ID is my-test-environment. Use the same environment ID for
the Scheduler Managed Service.

Store pipeline artifacts in example-pipelines-bucket.

リポジトリでパイプラインを初期化すると、新しいスキャフォールディングによって構成の変更が上書きされるため、再度初期化することはできません。新しいパイプラインを追加するには、プロジェクトに新しいパイプライン定義ファイルを作成して、デプロイ構成に追加します。

パイプラインに新しいタスクを追加する

初期パイプライン構成にはアクションがないため、PySpark スクリプトを実行するアクションを追加します。

エージェントを使用しない

パイプラインを編集する手順は次のとおりです。

アクティビティバーの [Google Cloud Data Agent Kit] アイコンをクリックします。
[Data Engineering]、[Orchestration Pipelines] の順に展開します。
example-pipeline.yaml を選択します。選択したパイプラインのパイプラインエディタが開きます。
省略可: [Schedule trigger] ノードを選択します。cron のような式とスケジュールの開始時刻と終了時刻を指定して、パイプラインのスケジュールを調整できます。新しく初期化されたパイプラインのデフォルトスケジュールは 0 2 * * * で、毎日午前 2 時に実行されます。

新しいタスクを追加します。このガイドでは、前に追加した PySpark スクリプトを実行する PySpark タスクを追加します。
1. [Add first task] をクリックして、新しいタスクノードを追加します。
2. [Execute PySpark script] と script/wordcount.py ファイルを選択します。
[Execute PySpark script] パネルが開きます。
1. [Spark Cluster Mode] で、[Serverless Spark] を選択します。
2. [Location] で、環境が存在するロケーションを指定します。例: us-central1。
3. [保存] をクリックします。

エージェントを使用する

次のプロンプトを実行します。

Add the wordcount.py script to the pipeline. I want to run it in Serverless
Spark every day at 1 AM. Run it in the same region where the environment that
runs my pipeline is located. Use the minimal resource profile.

パイプラインのローカルバージョンをデプロイする

パイプラインのローカルバージョンをデプロイして、正しく構成されていることを確認します。

オーケストレーションパイプラインのローカルバージョンをデプロイすると、VS Code 用の Data Agent Kit 拡張機能により、パイプラインバンドルのローカルバージョンが Managed Airflow 環境にアップロードされて実行されます。ローカルデプロイは、開発環境で作業する場合に使用することを目的としています。

deploy コマンドは、一時停止されていないスケジュールをデプロイします。これを防ぐには、[Pipelines Management] パネルでスケジュールを手動で一時停止します。パイプライン YAML ファイルを編集して、triggers: - schedule ブロックをコメントアウトまたは削除することもできます。

エージェントを使用しない

オーケストレーションパイプラインのローカルバージョンをデプロイする手順は次のとおりです。

アクティビティバーの [Google Cloud Data Agent Kit] アイコンをクリックします。
[Data Engineering]、[Orchestration Pipelines] の順に展開します。
example-pipeline.yaml を選択します。選択したパイプラインのパイプラインエディタが開きます。
[Run pipeline] を選択し、前に作成した開発環境またはステージング環境を選択します。

エージェントを使用する

次のプロンプトを実行します。

Deploy my pipeline

パイプラインの実行をモニタリングして実行ログを確認する

パイプラインをデプロイすると、詳細情報、パイプライン実行の履歴、パイプライン実行ログを確認できます。

アクティビティバーの [Google Cloud Data Agent Kit] アイコンをクリックします。
[Data Engineering] を展開し、[Pipelines management] を選択します。
パイプラインの名前（example-pipeline）をクリックして、実行履歴を表示します。特定の日付の実行リストで、個々のパイプライン実行と、各パイプライン実行内の個々のアクションの内訳を確認できます。
タスク ID をクリックして、タスク実行ログを表示します。サンプル PySpark スクリプトは Managed Service for Apache Spark で実行されたため、タスクログにはバッチログへのリンクが含まれます。

パイプラインの失敗のトラブルシューティングと修正

パイプラインが失敗すると、[Pipelines management] パネルに [Diagnose] ボタンが表示されます。

エージェントを使用する

[Diagnose] ボタンをクリックすると、エージェントはパイプラインの失敗のトラブルシューティングを行うためのプロンプトを生成します。プロンプトはクリップボードにコピーされるか、新しいチャットセッションで開きます。

エージェントは、ログの収集、デプロイされたコードとワークスペースの相互チェック、根本原因分析（RCA）の生成に重点を置いて、パイプラインのトラブルシューティングに特化したスキルを使用します。

RCA を受け取った後の次のステップは次のとおりです。

現在のワークスペースで根本原因分析を適用します。
エージェントに新しいブランチを作成して、変更を適用するように依頼します。
RCA の詳細を含む Cloud カスタマーケアチケットを開きます。

拡張機能に関する問題のトラブルシューティングについては、トラブルシューティングをご覧ください。

データ エンジニアリング パイプラインを構築する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

始める前に

必要な IAM ロールを確認する

サービス アカウントを作成して IAM ロールを付与する

オーケストレーション パイプラインのリソースを作成する Google Cloud

Managed Airflow Gen 3 環境を作成する

スケジューラ構成に環境パラメータを追加する

パイプライン アーティファクトのバケットを作成する

BigQuery で新しいデータセットとテーブルを作成する

パイプライン アセットを追加する

エージェントを使用しない

エージェントを使用する

リポジトリでオーケストレーション パイプラインを初期化する

エージェントを使用しない

エージェントを使用する

パイプラインに新しいタスクを追加する

エージェントを使用しない

エージェントを使用する

パイプラインのローカル バージョンをデプロイする

エージェントを使用しない

エージェントを使用する

パイプラインの実行をモニタリングして実行ログを確認する

パイプラインの失敗のトラブルシューティングと修正

エージェントを使用する

次のステップ

データエンジニアリングパイプラインを構築する

サービスアカウントを作成して IAM ロールを付与する

オーケストレーションパイプラインのリソースを作成する Google Cloud

パイプラインアーティファクトのバケットを作成する

パイプラインアセットを追加する

リポジトリでオーケストレーションパイプラインを初期化する

パイプラインのローカルバージョンをデプロイする