このページでは、検出とガバナンスを目的として、Cloud Data Fusion パイプラインによって生成されたデータリネージを、 Google Cloudの他のデータ移動とともに表示する方法について説明します。コンソールの [Knowledge Catalog] ページでサポートされているデータソースのリネージグラフを表示することも、Data Lineage API を使用して完全なデータリネージ レコードを取得することもできます。
Knowledge Catalog データリネージをサポートするプラグイン
Cloud Data Fusion と Knowledge Catalog は、次のプラグインのアセットレベルのリネージをサポートしています。
- Amazon S3
- BigQuery
- BigQuery マルチテーブル シンク(バージョン 6.9.1 以降)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Knowledge Catalog
- FTP
- 汎用データベース
- HTTP
- MSSQL / SQL Server
- 複数のデータベース テーブルソース(バージョン 6.9.1 以降)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP Table
詳細については、Cloud Data Fusion のプラグインをご覧ください。
始める前に
コンソールの [Knowledge Catalog] ページで Cloud Data Fusion のリネージグラフを表示できるようにするには、次の操作を行います。
サポートされているプラグインのみを使用するデータ パイプラインを作成します。
Cloud Data Fusion インスタンスを含むプロジェクトで Data Lineage API を有効にします。
Cloud Data Fusion マネージド サービス アカウント、Cloud Data Fusion API サービス エージェントに、データリネージ イベント プロデューサーのロール(
roles/datalineage.producer)付与します。このプロセスは、インスタンスを以前のバージョンの Cloud Data Fusion で実行し、RBAC が有効になっている場合は異なります。6.10 以降または RBAC なし
Cloud Data Fusion インスタンスがバージョン 6.10.0 以降を使用している場合、またはインスタンスが以前のバージョンを使用していて RBAC が有効になっていない場合は、次の手順を行います。
Google Cloud コンソールで、[IAM] ページに移動します。
[Google 提供のロール付与を含める] チェックボックスをオンにします。
Cloud Data Fusion API サービス エージェントのサービス アカウントを選択し、 編集] をクリックします。
[別のロールを追加] をクリックし、[データリネージ イベント プロデューサー] ロールを選択します。
[保存] をクリックします。
RBAC ありで 6.10 未満
Cloud Data Fusion インスタンスが 6.10.0 より前のバージョンを使用していて、RBAC が有効になっている場合、サービス アカウントは IAM ページのプリンシパルのリストに表示されません。サービス アカウント名を手動で入力する必要があります。
必要なロールを付与する手順は次のとおりです。
Google Cloud コンソールで、[IAM] ページに移動します。
[アクセス権を付与] をクリックします。
[新しいプリンシパル] フィールドに、Cloud Data Fusion API サービス エージェントのサービス アカウントを入力します。
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com形式を使用します。TENANT_PROJECT_IDは、インスタンスのテナント ID に置き換えます。テナント プロジェクト ID を表示するには、[インスタンス] ページに移動し、インスタンスの詳細を表示するインスタンス名をクリックします。[データリネージ イベント プロデューサー] ロールを選択します。
[保存] をクリックします。
Cloud Data Fusion で Knowledge Catalog データリネージを有効にする
Cloud Data Fusion の新しいインスタンスでは、Knowledge Catalog のデータ リネージはデフォルトで無効になっています。2024 年 1 月 27 日より前にバージョン 6.8.0 以降でインスタンスを作成した場合、始める前にの手順を完了すると、デフォルトで有効になります。
インスタンスの作成時に Knowledge Catalog データリネージを有効にする
コンソール
インスタンスの作成時に Knowledge Catalog データリネージを有効にするには、次の操作を行います。
Cloud Data Fusion の [インスタンス] ページに移動し、[インスタンスを作成] をクリックします。
インスタンスを構成するときに、[詳細オプション] セクションを開き、[Dataplex データリネージとの統合を有効にする] をクリックします。インスタンスの作成の詳細については、パブリック インスタンスを作成するをご覧ください。
REST API
インスタンスの作成時に Knowledge Catalog データリネージを有効にするには、オプションの dataplex_data_lineage_integration_enabled プロパティを true に設定します。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
無効にするには、プロパティを false に設定するか、プロパティを省略します。新しいインスタンスを作成するときに、リネージはデフォルトで無効になります。
既存のインスタンスで Knowledge Catalog データリネージを有効または無効にする
コンソール
Cloud Data Fusion の既存のインスタンスで Knowledge Catalog データリネージを有効または無効にするには、次の操作を行います。
- インスタンスの詳細を表示します。
Google Cloud コンソールで、Cloud Data Fusion のページに移動します。
[インスタンス]、インスタンス名の順にクリックして、[インスタンスの詳細] ページに移動します。
- [Dataplex データリネージ統合] フィールドで、[編集] をクリックします。
- Knowledge Catalog データリネージを有効または無効にして、[保存] をクリックします。
REST API
Cloud Data Fusion の既存のインスタンスで Knowledge Catalog データリネージを有効にするには、dataplex_data_lineage_integration_enabled プロパティを true に設定し、updateMask パラメータ値を含めます。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Cloud Data Fusion の既存のインスタンスで Knowledge Catalog データリネージを無効にするには、dataplex_data_lineage_integration_enabled プロパティを false に設定し、updateMask パラメータ値を含めます。
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
データ リネージグラフを表示する
すべての Google Cloud サービスにあるエンティティのリネージグラフを表示するには、次の操作を行います。
Cloud Data Fusion のインスタンスに移動し、サポートされているプラグインを使用するデータ パイプラインを実行します。
コンソールの [Knowledge Catalog] ページでリネージグラフを表示し、リネージ情報を表示するアセットを見つけます。
制限事項
Knowledge Catalog でリネージを表示する場合は、次の制限があります。
Knowledge Catalog のリネージは、サポートされているプラグインに接続されている BigQuery エンティティがある場合にのみ検出できます。データリネージ グラフが使用可能になるタイミングについて詳しくは、データリネージについてをご覧ください。
Data Lineage API は、顧客管理の暗号鍵(CMEK)をサポートしていません。
Cloud Data Fusion は、
me-central1またはeurope-west12のロケーションではこの機能をサポートしていません。データリネージに関する考慮事項をご確認ください。
次のステップ
- データリネージの詳細を学習する。