Knowledge Catalog でデータリネージを追跡する

このページでは、Knowledge Catalog を使用して Looker(Google Cloud コア)インスタンスのデータ リネージを追跡する方法について説明します。

データリネージは、データがシステム内をどのように流れるかを追跡するプロセスです。Looker(Google Cloud コア)を Knowledge Catalog と統合すると、BigQuery のソースから Looker セマンティック レイヤ(LookML ビューと Explore)を介して、ダッシュボードと Look での下流の使用までのデータのエンドツーエンドのジャーニーを可視化できます。

この可視性により、データ エンジニアと管理者は影響分析を実行できます。たとえば、BigQuery テーブルの列を削除する前に、リネージ グラフを確認して、変更によってどの Looker ダッシュボードが破損するかを正確に確認できます。

始める前に

Looker(Google Cloud コア)でデータリネージを使用するには、次の前提条件を満たしている必要があります。

  1. Looker(Google Cloud コア): Looker(Google Cloud コア)インスタンスのすべてのエディション タイプでデータ リネージがサポートされています。Looker(オリジナル)インスタンスは Knowledge Catalog と統合されません。
  2. 必要な権限: リネージグラフを表示するには、次の IAM ロールが必要です。
    • Looker(Google Cloud コア)インスタンスをホストするプロジェクトの Looker スキーマ ビューアroles/looker.schemaViewer
    • Knowledge Catalog アセットを表示するための Dataplex 閲覧者roles/dataplex.viewer)または同等の権限
    • リネージ データを読み取るためのデータリネージ閲覧者roles/datalineage.viewer

データリネージを有効にする

データ リネージを有効にするには、次の各手順を完了します。

  1. Looker(Google Cloud コア)のユニバーサル カタログ統合を有効にする: Looker(Google Cloud コア)インスタンスと Knowledge Catalog の統合は、 Google Cloud コンソールでデフォルトで有効になっています。統合が無効になっている場合は、再度有効にする必要があります。手順については、統合を有効にするをご覧ください。
  2. Looker 内で Knowledge Catalog Lineage プレビュー機能を有効にする: Knowledge Catalog Lineage プレビュー機能は、Looker(Google Cloud コア)インスタンス内の [管理] パネルの [プレビュー機能] ページでデフォルトで無効になっています。
  3. Data Lineage API を有効にする: Looker(Google Cloud コア)インスタンスと BigQuery データをホストする Google Cloud プロジェクトで Data Lineage APIdatalineage.googleapis.com)を有効にする必要があります。

    データリネージ API を有効にする

  4. サービスレベルの系統の取り込みを有効にする: 系統と Looker(Google Cloud コア)のサービスレベルの統合が有効になっていることをEnsure。サービスレベルのリネージは、次のデフォルトの状態に準拠します。
    • 将来の料金への影響を回避するため、この機能のプレビュー リリース日にデータリネージ API が有効になっており、少なくとも 1 つの Looker(Google Cloud コア)インスタンスがホストされているプロジェクトでは、Looker(Google Cloud コア)サービスレベルのリネージ取り込みがデフォルトで無効になっています。
    • サービスレベルのリネージ取り込みは、Data Lineage API が有効になっているプロジェクトで、この機能のプレビュー リリース日以降に作成された Looker(Google Cloud コア)インスタンスでデフォルトで有効になっています。

Google Cloud プロジェクトの系統構成を表示するには、現在の構成を取得するのドキュメントをご覧ください。Looker(Google Cloud コア)との統合が無効になっている場合、コマンドは次のような出力を返します。

    {
    "name": "projects/123456789012/locations/global/config",
    "ingestion": {
      "rules": [
        {
          "integrationSelector": {
            "integration": "LOOKER_CORE"
          },
          "lineageEnablement": {
            "enabled": false
          }
        }
      ]
    },
    "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
  }

レスポンスのプロジェクト ID は、リクエストの ID を反映します。etag フィールドは、サーバーによって生成され、構成の現在の値に基づくチェックサムです。

データリネージを表示する

統合が有効になり、最初の同期が完了すると(最大 24 時間かかることがあります)、Knowledge Catalog コンソールでリネージを表示できます。

  1. Google Cloud コンソールで、[Knowledge Catalog] ページに移動します。

    Knowledge Catalog に移動

  2. 左側のナビゲーション パネルで [検索] をクリックします。
  3. BigQuery テーブルまたは Looker(Google Cloud コア)アセット(ダッシュボードや Explore など)を検索します。
    • [フィルタ] パネルを使用して、[システム] > [Looker] でフィルタできます。
  4. アセットの名前をクリックして、詳細ページを開きます。
  5. [リネージ] タブをクリックします。

リネージグラフでは、アセットが中央のノードとして表示され、アップストリーム ソースが左側に、ダウンストリーム コンシューマーが右側に表示されます。

リネージグラフを解釈する

リネージグラフは、ノードリンクで構成されます。

  • ノード: データアセットを表します。サポートされている Looker(Google Cloud コア)アセットには、次のものがあります。
    • Looker ダッシュボード
    • Looker ダッシュボードの要素(タイル)
    • Looker Look
    • LookML Explore
    • LookML ビュー
  • リンク: データの流れを表します。たとえば、BigQuery テーブルから LookML ビューへのリンクは、ビューがそのテーブルからデータを選択することを示します。

アセット オーナーを特定する

変更の影響を受ける可能性があるダウンストリーム アセットの所有者を確認する手順は次のとおりです。

  1. リネージグラフで、アセットのノード(Looker ダッシュボードなど)をクリックします。
  2. 画面の右側に情報パネルが開きます。
  3. [Aspects] セクションで [Owner](メールアドレス)を探します。

リネージ リストをフィルタする

リネージの [リスト] ビューでは、プロパティ名または値でエンティティをフィルタできます。たとえば、複雑な LookML モデルでは、多くの中間エンティティを含む大規模なリネージ グラフが生成されることがあります。ビジネスへの影響に焦点を当てるには、次の手順でエンティティ タイプでフィルタします。

  1. [リネージ] タブで、[リスト] ビューに切り替えます。
  2. ツールバーで [フィルタ] オプションを見つけます。
  3. [エンティティ] フィルタに「Looker ダッシュボード」と「Looker Look」を入力して、LookML ビューLooker Explore などの中間タイプを除外します。

エンティティ リストが更新され、選択したアセットタイプのみが表示されるため、ユーザー向けのコンテンツを特定しやすくなります。

制限事項

Looker(Google Cloud コア)のリネージ統合には、プレビュー リリース期間中に次の制限があります。

  • データソース: プレビューでは、リネージは BigQuery データソースでのみサポートされています。
  • 粒度: リネージはオブジェクト レベル(テーブル、ビュー、Explore、ダッシュボード)で提供されます。列レベルの系統は対象外です。
  • レイテンシ: リネージ データはリアルタイムではありません。同期プロセスには通常 4 時間かかります。ただし、Looker メタデータのエクスポートとリネージ データの使用のタイミングによっては、同期に最大 8 時間かかることがあります。Looker または BigQuery で行った変更がリネージ グラフに表示されるまでには、しばらく時間がかかることがあります。
  • 複雑な SQL: 複雑なカスタム SQL(Liquid テンプレート、複雑な結合を含む派生テーブルなど)で定義された LookML は完全に解析されない可能性があり、ノードが切断される可能性があります。

料金

プレビュー リリース期間中は、この統合で使用されるデータ リネージ機能に対して料金は発生しません。

データ リネージが一般提供されると、料金が発生します。将来の料金への影響を回避するため、この機能のプレビュー リリース日に Data Lineage API が有効になっており、1 つ以上の Looker(Google Cloud コア)インスタンスがホストされているプロジェクトでは、Looker(Google Cloud コア)リネージの取り込みはデフォルトで無効になっています。

詳細については、Knowledge Catalog の料金ページをご覧ください。

次のステップ