"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Hive データリネージを有効にする

このドキュメントでは、Managed Service for Apache Spark Hive ジョブでデータリネージを有効にして使用する方法について説明します。

Managed Service for Apache Spark Hive ジョブのデータリネージを有効にするには、クラスタを作成するときに初期化アクションを使用します。

クラスタで Hive データリネージを有効にすると、クラスタに送信する Hive ジョブはデータリネージイベントをキャプチャし、Knowledge Catalog にパブリッシュします。

リネージ情報を可視化する

データリネージグラフには、プロジェクトリソースとそれらを作成したプロセスの関係が表示されます。リネージグラフには、 Google Cloud コンソールの Knowledge Catalog、BigQuery Studio、Vertex AI を使用してアクセスできます。

料金

Managed Service for Apache Spark Hive データリネージは、プレビュー期間中は追加料金なしで提供されます。標準の Managed Service for Apache Spark の料金が適用されます。

始める前に

Google Cloud コンソールの [プロジェクトセレクタ] ページで、リネージを追跡する Managed Service for Apache Spark クラスタを含むプロジェクトを選択します。

プロジェクトセレクタに移動
Data Lineage API と Dataplex API を有効にします。

API を有効にする

必要なロール

Managed Service for Apache Spark でデータリネージを使用するために必要な権限を取得するには、Managed Service for Apache Spark クラスタの VM サービスアカウントに対して次の IAM ロールを付与するよう管理者に依頼してください。

Knowledge Catalog でデータリネージを表示するか、Data Lineage API を使用する: データリネージ閲覧者（roles/datalineage.viewer）
API を使用してデータリネージを手動で生成する: データリネージイベントプロデューサー（roles/datalineage.producer）
API を使用してデータリネージを編集する: データリネージ編集者（roles/datalineage.editor）
データリネージに対してすべてのオペレーションを実行する: データリネージ管理者（roles/datalineage.admin）

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。