"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark でデータリネージを使用する

このドキュメントでは、データリネージを Managed Service for Apache Spark バッチワークロードとインタラクティブセッションで、プロジェクト、バッチワークロード、またはインタラクティブセッションのレベルで有効にする方法について説明します。

概要

データリネージは Knowledge Catalog の機能で、システム内でのデータの移動（データの送信元、データの送信先、データに適用された変換）を追跡できます。

Managed Service for Apache Spark のワークロードとセッションは、リネージイベントをキャプチャして Knowledge Catalog Data Lineage API にパブリッシュします。 Managed Service for Apache Spark は、 OpenLineage を介して Data Lineage API と統合され、 OpenLineage Spark プラグインを使用します。

リネージ情報にアクセスするには、リネージグラフと Data Lineage API を使用して Knowledge Catalog を使用します。詳細については、Knowledge Catalog でリネージグラフを表示するをご覧ください。

対象

BigQuery と Cloud Storage データソースをサポートするデータリネージは、サポートされている Managed Service for Apache Spark ランタイムバージョンで実行されるワークロードとセッションで使用できますが、次の例外と制限があります。

SparkR または Spark ストリーミングのワークロードまたはセッションでは、データリネージを使用できません。

始める前に

コンソールのプロジェクトセレクタのページで、Managed Service for Apache Spark のワークロードまたはセッションに使用するプロジェクトを選択します。 Google Cloud

プロジェクトセレクタに移動
データリネージ API を有効にします。

API を有効にする

Spark データリネージの今後の変更 Managed Service for Apache Spark のリリースノートで、Data Lineage API を有効にすると（サービスの系列取り込みを制御するを参照）、追加のプロジェクト、バッチワークロード、インタラクティブセッションの設定を行わずに、プロジェクト、バッチワークロード、インタラクティブセッションで Spark データリネージを自動的に使用できるようになる変更についてお知らせします。

必要なロール

バッチワークロードでデフォルトの Managed Service for Apache Spark サービスアカウントを使用している場合、 Managed Service for Apache Spark Worker ロールが付与されます。このロールには、データリネージに必要な権限が含まれています。

ただし、バッチワークロードでカスタムサービスアカウントを使用してデータリネージを有効にする場合は、次の段落に記載されているロールのいずれか 1 つ をカスタムサービスアカウントに付与する必要があります。これらのロールには、データリネージに必要な権限が含まれています。

Managed Service for Apache Spark でデータリネージを使用するために必要な権限を取得するには、バッチワークロードのカスタムサービスアカウントに対して次の IAM ロールを付与するよう管理者に依頼してください。

次のいずれかのロールを1 つ 付与します。
- Managed Service for Apache Spark Worker （roles/dataproc.worker）
- データリネージ編集者（roles/datalineage.editor）
- データリネージプロデューサー（roles/datalineage.producer）
- データリネージ管理者（roles/datalineage.admin）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Spark データリネージを有効にする

プロジェクト、バッチワークロード、インタラクティブセッションで Spark データリネージを有効にできます。

プロジェクトレベルでデータリネージを有効にする

プロジェクトレベルで Spark データリネージを有効にすると、バッチワークロードまたはインタラクティブセッションで実行される後続の Spark ジョブで Spark データリネージが有効になります。

プロジェクトで Spark データリネージを有効にするには、次のカスタムプロジェクトメタデータを設定します。

キー	値
`DATAPROC_LINEAGE_ENABLED`	`true`

DATAPROC_LINEAGE_ENABLED メタデータを false に設定すると、プロジェクトの Spark データリネージを無効にできます。

Spark バッチワークロードでデータリネージを有効にする

バッチワークロードでデータリネージを有効にするには、ワークロードを送信するときに spark.dataproc.lineage.enabled プロパティを true に設定します。この設定は、プロジェクトレベルの Spark データリネージ設定よりも優先されます。プロジェクトレベルで Spark データリネージが無効になっていても、バッチワークロードで有効になっている場合は、バッチワークロードの設定が優先されます。

ワークロードを送信するときに spark.dataproc.lineage.enabled プロパティを false に設定すると、Spark バッチワークロードの Spark データリネージを無効にできます。

この例では、gcloud CLI を使用して、Spark リネージが有効になっているバッチ lineage-example.py ワークロードを送信します。

gcloud dataproc batches submit pyspark lineage-example.py \
    --region=REGION \
    --deps-bucket=gs://BUCKET \
    --properties=spark.dataproc.lineage.enabled=true

次の lineage-example.py コードは、一般公開の BigQuery テーブルからデータを読み取り、出力を既存の BigQuery データセットの新しいテーブルに書き込みます。一時ストレージには Cloud Storage バケットを使用します。

#!/usr/bin/env python

from pyspark.sql import SparkSession
import sys

spark = SparkSession \
  .builder \
  .appName('LINEAGE_BQ_TO_BQ') \
  .getOrCreate()

source = 'bigquery-public-data:samples.shakespeare'
words = spark.read.format('bigquery') \
  .option('table', source) \
  .load()
words.createOrReplaceTempView('words')

word_count = spark.sql('SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')

destination_table = 'PROJECT_ID:DATASET.TABLE'
word_count.write.format('bigquery') \
  .option('table', destination_table) \
  .option('writeMethod', 'direct') \
  .save()

次のように置き換えます。

REGION: ワークロードを実行するリージョン
BUCKET: 依存関係を保存する既存の Cloud Storage バケットの名前
PROJECT_ID、DATASET、TABLE: プロジェクト ID、既存の BigQuery データセットの名前、データセットに作成する新しいテーブルの名前（テーブルが存在しない場合）

リネージグラフは、Knowledge Catalog UI で表示できます。

Spark リネージグラフ

Spark インタラクティブセッションまたはセッションテンプレートでデータリネージを有効にする

Spark インタラクティブセッションまたはセッションテンプレートでデータリネージを有効にするには、 spark.dataproc.lineage.enabled プロパティを true に設定します。セッションまたはセッションテンプレートを作成するとき。この設定は、プロジェクトレベルの Spark データリネージ設定よりも優先されます。プロジェクトレベルで Spark データリネージが無効になっていても、インタラクティブセッションで有効になっている場合は、インタラクティブセッションの設定が優先されます。

インタラクティブセッションまたはセッションテンプレートの作成時に spark.dataproc.lineage.enabled プロパティを false に設定すると、Spark インタラクティブセッションまたはセッションテンプレートの Spark データリネージを無効にできます。

次の PySpark ノートブックコードは、Spark データリネージが有効になっている Managed Service for Apache Spark インタラクティブセッションを構成します。次に、一般公開の BigQuery Shakespeare データセットで単語数クエリを実行する Spark Connect セッションを作成し、出力を既存の BigQuery データセットの新しいテーブルに書き込みます（ BigQuery Studio ノートブックで Spark セッションを作成するを参照）。

# Configure the Dataproc Serverless interactive session
# to enable Spark data lineage.
from google.cloud.dataproc_v1 import Session

session = Session()
session.runtime_config.properties["spark.dataproc.lineage.enabled"] = "true"

# Create the Spark Connect session.
from google.cloud.dataproc_spark_connect import DataprocSparkSession

spark = DataprocSparkSession.builder.dataprocSessionConfig(session).getOrCreate()

# Run a wordcount query on the public BigQuery Shakespeare dataset.
source = "bigquery-public-data:samples.shakespeare"
words = spark.read.format("bigquery").option("table", source).load()
words.createOrReplaceTempView('words')
word_count = spark.sql(
           'SELECT word, SUM(word_count) AS word_count FROM words GROUP BY word')

# Output the results to a BigQuery destination table.
destination_table = 'PROJECT_ID:DATASET.TABLE'
word_count.write.format('bigquery') \
  .option('table', destination_table) \
  .save()

次のように置き換えます。

PROJECT_ID、DATASET、TABLE: プロジェクト ID、既存の BigQuery データセットの名前、データセットに作成する新しいテーブルの名前（テーブルが存在しない場合）

データリネージグラフを表示するには、BigQuery の [エクスプローラ] ページのナビゲーションパネルに表示されている宛先テーブル名をクリックし、テーブルの詳細パネルで [リネージ] タブを選択します。

Spark リネージグラフ

Knowledge Catalog でリネージを表示する

リネージグラフには、プロジェクトリソースとそれらを作成したプロセスの関係が表示されます。コンソールでデータリネージ情報を表示するか、 Google Cloud Data Lineage API から JSON データの形式で取得できます。

次のステップ

データリネージの詳細を学習する。
インタラクティブラボでデータリネージを試す: Dataplex でデータリネージと OpenLineage を使用してデータ更新をキャプチャして探索する。