データリネージについて

データリネージは、データのライフサイクル全体を視覚的に追跡できるマップです。データの送信元、転送先、転送の過程で行われた変更や変換をすべて確認できます。

このデータの流れを完全にマップ化したものを、Dataplex Universal Catalog、BigQuery、Vertex AI などのプロダクトで作成されたアセットのGoogle Cloud コンソールで直接確認できます。上級ユーザーは、Data Lineage API を使用してこの情報を取得することもできます。

データリネージが必要な理由

今日の企業は、常に大量のデータを移動および変更しています。たとえば、顧客の購入履歴をレポート、ダッシュボード、ML モデルに変換します。この複雑さにより、チームは次のような重大な課題に直面します。

  • 信頼性と検証: データユーザーは、表示されるレポートや数値が正確で、信頼できるソースから取得されたものであることを確認するのに苦労しがちです。

  • トラブルシューティング: 最終レポートにエラーが表示された場合、データチームはすべての手順を遡って問題の根本原因を特定しますが、これは困難で時間がかかることがあります。

  • 変更管理: チームは、重要なシステムが破損しないように、データ(テーブルの列など)を変更または削除する前に、そのデータに依存するすべてのダウンストリーム レポートまたはモデルを把握する必要があります。

  • コンプライアンス: リーダーは、規制要件を満たすために、組織全体で機密データ(顧客情報や財務情報など)がどのように使用されているかを把握する必要があります。

データリネージは、データの流れを明確に視覚化して文書化したものを提供することで、これらの問題を解決します。これにより、データソースをすばやく把握し、エラーを追跡し、変更の影響を評価し、コンプライアンスを維持できます。

データリネージのワークフロー

データリネージ ワークフローには次の手順が含まれます。

  1. データソースと取り込み: データソースからのリネージ情報によって、プロセス全体が開始されます。詳細については、リネージソースをご覧ください。

    • Google Cloud サービス: Data Lineage API が有効になっている場合、BigQuery や Dataflow などのサポートされているサービスは、データが移動または変換されるたびにリネージ イベントを自動的にレポートします。

    • カスタムソース:Google Cloud 統合で自動的にサポートされていないシステムについては、Data Lineage API を使用してリネージ情報を手動で記録できます。OpenLineage standardに従ってフォーマットされたイベントをインポートすることをおすすめします。

  2. リネージ プラットフォーム: この中央プラットフォームは、すべてのリネージデータを取得、モデル化、保存します。詳細については、リネージ情報モデルと粒度をご覧ください。

    • Data Lineage API: この API は、すべての受信リネージ情報の単一のエントリ ポイントとして機能します。プロセス、実行、イベントという 3 つのコアコンセプトで構成される階層型データモデルを使用します。

    • 処理と保存: プラットフォームは受信データを処理し、信頼性の高いクエリ最適化データベースに保存します。

  3. ユーザー エクスペリエンス: 保存されたリネージ情報には、主に次の 2 つの方法でアクセスできます。

    • ビジュアル探索: Google Cloud コンソールで、フロントエンド サービスがリネージデータを取得して、インタラクティブなグラフまたはリストとしてレンダリングします。これは、Dataplex Universal Catalog、BigQuery、Vertex AI(モデル、データセット、Feature Store ビュー、特徴グループ)でサポートされています。これは、データの流れを視覚的に確認するのに最適です。詳細については、 Google Cloud コンソールのリネージビューをご覧ください。

    • プログラムによるアクセス: API クライアントを使用して Data Lineage API と直接通信し、リネージ管理を自動化できます。これにより、カスタムソースからリネージ情報を書き込むことができます。また、保存されたリネージデータを読み取ってクエリし、他のアプリケーションで使用したり、カスタム レポートを作成したりすることもできます。

リネージソース

Dataplex Universal Catalog にリネージ情報のデータを入力するには、次の方法があります。

  • 統合された Google Cloud サービスから自動的に入力
  • カスタムソースの Data Lineage API を使用して手動で入力
  • OpenLineage からイベントをインポートして入力

データリネージの自動追跡

Data Lineage API を有効にすると、データリネージをサポートしている Google Cloud システムがデータの移動の報告を開始します。統合された各システムは、異なる範囲のデータソースのリネージ情報を送信できます。

BigQuery

BigQuery プロジェクトでデータリネージを有効にすると、Dataplex Universal Catalog は次のリネージ情報を自動的に記録します。

BigQuery のコピー、クエリ、読み込みジョブは、プロセスとして表されます。

プロセスの詳細を表示するには、リネージグラフで をクリックします。

各プロセスでは、最新の BigQuery ジョブの属性リストに BigQuery job_id が含まれています。

その他のサービス

データリネージは、次のGoogle Cloud サービスとのインテグレーションをサポートしています。

カスタム データソースのデータリネージ

Data Lineage API を使用すると、統合されたシステムでサポートされていないデータソースのリネージ情報を手動で記録できます。

既存の Dataplex Universal Catalog エントリの完全修飾名と一致する fullyQualifiedName を使用すると、Dataplex Universal Catalog は手動で記録されたリネージのリネージグラフを作成できます。カスタム データソースのリネージを記録する場合は、まずカスタム エントリを作成する必要があります。

カスタム データソースの各プロセスでは、属性リストに sql キーを含めることができます。このキーの値は、データリネージ グラフの詳細パネルでコードのハイライトをレンダリングするために使用されます。記載のとおりに SQL ステートメントが表示されます。機密情報を除外する責任はユーザーにあります。鍵名 sql では、大文字と小文字が区別されます。

OpenLineage

すでに OpenLineage を使用して他のデータソースからリネージ情報を収集している場合は、OpenLineage イベントを Dataplex Universal Catalog にインポートし、 Google Cloud コンソールでそれらのイベントを表示できます。詳細については、OpenLineage との統合をご覧ください。

制限事項

データリネージの制限事項は次のとおりです。

  • すべてのリネージ情報は、システムに 30 日間のみ保持されます。

  • リネージ情報は、関連するデータソースを削除しても保持されます。たとえば、BigQuery テーブルを削除しても、API とコンソールで最大 30 日間リネージを表示できます。

  • データリネージでは、BigQuery ルーティンの直接リネージ情報は自動的に記録されません。ルーティンがクエリで使用されている場合、データリネージは、ルーティンが読み取るテーブルと、クエリが書き込むテーブルの依存関係として、テーブル間のリネージを記録します。

列レベルのリネージの制限事項

列レベルのリネージには、次の追加の制限があります。

  • BigQuery の読み込みジョブやルーティンでは、列レベルのリネージは収集されません。

  • 外部テーブルの上流の列レベルの系統は収集されません。

  • ジョブで 1,500 個を超える列レベルのリンクが作成された場合、列レベルのリネージは収集されません。この場合、テーブルレベルの系統のみが収集されます。

  • 列レベルの系統を作成、読み取り、更新、削除、検索するための API はありません。

  • _PARTITIONDATE_PARTITIONTIME などのパーティショニング列がリネージグラフで認識されないため、パーティション分割テーブルのサポートは制限されています。

  • コンソールの制限:

    • リネージグラフのトラバーサルは、各方向で 20 レベルの深さと 10,000 個のリンクに制限されています。

    • 列レベルの系統は、ルートテーブルが存在するリージョンからのみ取得されます。グラフビューでは、リージョン間のリネージはサポートされていません。

料金

  • Dataplex Universal Catalog は、プレミアム処理 SKU を使用してデータリネージの料金を課金します。詳細は、料金をご覧ください。

  • Dataplex Universal Catalog プレミアム処理 SKU で、データリネージの課金を他の課金と分離するには、Cloud Billing レポートで、ラベル goog-dataplex-workload-type を値 LINEAGE で使用します。

  • CUSTOM 以外の値を指定して Data Lineage API Origin sourceType を呼び出すと、追加費用が発生します。

次のステップ