このページでは、検出とガバナンスを目的として、Cloud Data Fusion パイプラインによって生成されたデータリネージを、 Google Cloudの他のデータ移動とともに表示する方法について説明します。コンソールの [Dataplex Universal Catalog] ページでサポートされているデータソースのリネージグラフを表示することも、Data Lineage API を使用して完全なデータリネージ レコードを取得することもできます。
Dataplex ユニバーサル カタログ データリネージをサポートするプラグイン
Cloud Data Fusion と Dataplex Universal Catalog は、次のプラグインのアセットレベルのリネージをサポートしています。
- Amazon S3
- BigQuery
- BigQuery マルチテーブル シンク(バージョン 6.9.1 以降)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Dataplex ユニバーサル カタログ
- FTP
- 汎用データベース
- HTTP
- MSSQL / SQL Server
- 複数のデータベース テーブルソース(バージョン 6.9.1 以降)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP Table
詳細については、Cloud Data Fusion のプラグインをご覧ください。
始める前に
コンソールの Dataplex Universal Catalog ページで Cloud Data Fusion のリネージグラフを表示できるようにするには、次の操作を行います。
サポートされているプラグインのみを使用するデータ パイプラインを作成します。
Cloud Data Fusion インスタンスを含むプロジェクトで Data Lineage API を有効にします。
Cloud Data Fusion マネージド サービス アカウント、Cloud Data Fusion API サービス エージェントに、データリネージ イベント プロデューサーのロール(
roles/datalineage.producer
)付与します。このプロセスは、インスタンスを以前のバージョンの Cloud Data Fusion で実行し、RBAC が有効になっている場合は異なります。6.10 以降または RBAC なし
Cloud Data Fusion インスタンスがバージョン 6.10.0 以降を使用している場合、またはインスタンスが以前のバージョンを使用していて RBAC が有効になっていない場合は、次の手順を行います。
Google Cloud コンソールで、[IAM] ページに移動します。
[Google 提供のロール付与を含める] チェックボックスをオンにします。
Cloud Data Fusion API サービス エージェントのサービス アカウントを選択し、
編集] をクリックします。[別のロールを追加] をクリックし、[データリネージ イベント プロデューサー] ロールを選択します。
[保存] をクリックします。
RBAC ありで 6.10 未満
Cloud Data Fusion インスタンスが 6.10.0 より前のバージョンを使用していて、RBAC が有効になっている場合、サービス アカウントは IAM ページのプリンシパルのリストに表示されません。サービス アカウント名を手動で入力する必要があります。
必要なロールを付与する手順は次のとおりです。
Google Cloud コンソールで、[IAM] ページに移動します。
[アクセス権を付与] をクリックします。
[新しいプリンシパル] フィールドに、Cloud Data Fusion API サービス エージェントのサービス アカウントを入力します。
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
形式を使用します。TENANT_PROJECT_ID
は、インスタンスのテナント ID に置き換えます。テナント プロジェクト ID を表示するには、[インスタンス] ページに移動し、インスタンスの詳細を表示するインスタンス名をクリックします。[データリネージ イベント プロデューサー] ロールを選択します。
[保存] をクリックします。
Cloud Data Fusion で Dataplex Universal Catalog データリネージを有効にする
Cloud Data Fusion の新しいインスタンスの場合、Dataplex Universal Catalog データリネージはデフォルトでオフになっています。2024 年 1 月 27 日より前にバージョン 6.8.0 以降でインスタンスを作成した場合は、始める前にの手順を完了すると、デフォルトで有効になります。
インスタンスの作成時に Dataplex ユニバーサル カタログ データリネージを有効にする
コンソール
インスタンスの作成時に Dataplex Universal Catalog データリネージを有効にするには、次の操作を行います。
Cloud Data Fusion の [インスタンス] ページに移動し、[インスタンスを作成] をクリックします。
インスタンスを構成するときに、[詳細オプション] セクションを開き、[Dataplex データリネージとの統合を有効にする] をクリックします。インスタンスの作成の詳細については、パブリック インスタンスを作成するをご覧ください。
REST API
インスタンスの作成時に Dataplex Universal Catalog データリネージを有効にするには、オプションの dataplex_data_lineage_integration_enabled
プロパティを true
に設定します。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
無効にするには、プロパティを false に設定するか、プロパティを省略します。新しいインスタンスを作成するときに、リネージはデフォルトで無効になります。
既存のインスタンスで Dataplex Universal Catalog データリネージを有効または無効にする
コンソール
Cloud Data Fusion の既存のインスタンスで Dataplex Universal Catalog データリネージを有効または無効にするには、次の操作を行います。
- インスタンスの詳細を表示します。
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
[インスタンス]、インスタンス名の順にクリックして、[インスタンスの詳細] ページに移動します。
- [Dataplex データリネージ統合] フィールドで、[編集] をクリックします。
- Dataplex Universal Catalog データリネージを有効または無効にして、[保存] をクリックします。
REST API
Cloud Data Fusion の既存のインスタンスで Dataplex Universal Catalog データリネージを有効にするには、dataplex_data_lineage_integration_enabled
プロパティを true
に設定し、updateMask
パラメータ値を含めます。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Cloud Data Fusion の既存のインスタンスで Dataplex Universal Catalog データリネージを無効にするには、dataplex_data_lineage_integration_enabled
プロパティを false
に設定し、updateMask
パラメータ値を含めます。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
データ リネージグラフを表示する
すべての Google Cloud サービスにあるエンティティのリネージグラフを表示するには、次の操作を行います。
Cloud Data Fusion のインスタンスに移動し、サポートされているプラグインを使用するデータ パイプラインを実行します。
コンソールの [Dataplex Universal Catalog] ページでリネージグラフを表示し、リネージ情報を表示するアセットを見つけます。
制限事項
Dataplex ユニバーサル カタログでリネージを表示する場合は、次の制限があります。
Dataplex ユニバーサル カタログのリネージは、サポートされているプラグインに接続されている BigQuery エンティティがある場合にのみ検出できます。データリネージ グラフが使用可能になるタイミングについて詳しくは、データリネージについてをご覧ください。
Data Lineage API は、顧客管理の暗号鍵(CMEK)をサポートしていません。
Cloud Data Fusion は、
me-central1
またはeurope-west12
のロケーションではこの機能をサポートしていません。データリネージに関する考慮事項をご確認ください。
次のステップ
- データリネージの詳細を学習する。