データ プロダクトについて

このドキュメントでは、Dataplex Universal Catalog のデータ プロダクトのアーキテクチャと主要なコンセプトについて説明します。

データ プロダクトは、データアセットの論理的でキュレートされたコレクションであり、検出可能で信頼性が高く、アクセス可能であることを保証するために正式にパッケージ化されています。データ プロダクトの主な機能は次のとおりです。

  • 特定のビジネス上の問題を解決し、分析情報を迅速に取得できるように、カタログ アセットを論理ユニットに整理します。
  • 説明、ドキュメント、アスペクトを含むコンテキストで配布します。
  • データ プロデューサーがデータ消費者に保証を提供できるようにする契約を締結し、信頼を確立します。
  • データの消費者がデータ プロダクトを評価してデータにアクセスするためのセルフサービス ワークフローを提供します。

主なコンセプト

このセクションでは、データ プロダクトに関連する主なコンセプトと用語について説明します。

データ プロダクト

特定のビジネス上の問題を解決するために、検出可能で信頼性が高く、アクセス可能であることを保証するために正式にパッケージ化された、データアセットのキュレート済みの論理的なグループ。

アセット

BigQuery データセット、テーブル、ビューなどの物理データリソースへのポインタ。データ プロダクトには 1 つ以上のアセットが含まれます。

アクセス グループ

Google グループはデータ プロダクト オーナーによって構成され、データ プロダクトの消費者がアクセス権をリクエストするために使用します。アセットの権限は、これらのアクセス グループに割り当てられます。

アクセス グループを使用すると、データ プロダクトの権限管理が簡素化されます。基盤となる IAM グループのユーザー フレンドリーなエイリアス(ReaderAnalyst など)として機能します。これにより、データ プロダクト オーナーは高レベルで権限を割り当てることができ、ユーザーは適切なレベルのアクセス権をリクエストできます。

データ プロダクト オーナーまたはデータ プロデューサー

データ プロダクトの作成と管理を担当する個人またはチーム。これには、品質、アクセス、ドキュメントの管理が含まれます。

データ プロダクトの消費者

データ プロダクトを使用して分析情報を生成する個人、チーム、AI エージェント。

契約

データ プロダクト オーナーとその消費者の間の契約。この契約では、データの提供方法と使用方法(更新スケジュールや品質基準など)に関する具体的な用語を定義することで、明確な期待値を設定します。

ユースケース例

e コマース ビジネスを分析するデータ サイエンティストについて考えてみましょう。目標は、トラフィック ソース別の平均注文額(AOV)を特定し、ユーザーの年齢と注文数量との間に相関関係があるかどうかを確認することです。そのためには、order_detailsuser_trafficuser_demographic などの複数のテーブルのデータを結合する必要があります。

従来の設定では、このプロセスによって摩擦が生じます。分析情報を生成するには、データ サイエンティストはまず組織の広大なデータ環境内で適切なテーブルを見つけ、各データオーナーに連絡してアクセス リクエストを正当化し、承認を待つ必要があります。

データ プロダクトを使用すると、データオーナーは関連するアセットを「Ecommerce Business Data」という 1 つのプロダクトにパッケージ化して、このエクスペリエンスを効率化できます。このパッケージには次のものが含まれます。

  • アセット

    • BigQuery テーブル order_detailsuser_traffic(過去の注文データとトラフィック ソースを含む)
    • BigQuery ビュー user_demographics(PII を除外したユーザーの詳細を提供)
  • アクセス グループ

    • アクセス リクエストを効率化する事前定義の Reader グループと Writer グループ
  • 契約

    • データ更新頻度を定義する契約(たとえば、毎週午前 8 時(太平洋標準時))
  • コンテキスト

    • サンプルクエリなどの詳細を含むドキュメント
    • データの機密性を表す追加のメタデータ

データ サイエンティストは、このデータ プロダクトを単一の論理ユニットとして検出できるようになりました。これにより、ユーザーは「トラフィック ソースごとの平均注文額は?」などの質問に答える分析情報を自信を持って生成し、最終的にどのソースから最も価値の高い顧客を獲得できるかを明らかにできます。

データ プロダクトのユーザーフロー

Dataplex Universal Catalog のデータ プロダクト ライフサイクルには、2 つの主要なユーザー ジャーニーがあります。1 つはデータを作成して管理するデータ プロダクト オーナー(またはプロデューサー)のジャーニー、もう 1 つはデータを検出して使用するデータ プロダクトの消費者のジャーニーです。

データ プロダクトのオーナー ジャーニー

このジャーニーでは、データ プロダクトのパッケージ化、保護、ガバナンスに焦点を当て、信頼性とアクセス性を確保します。

  • 作成: データ プロダクトを定義し、アセットを含めます。これには、次の操作が含まれます。

    • 一意の名前、プロジェクト、リージョン、説明を構成します。
    • BigQuery のテーブル、データセット、ビューなどのアセットを追加します。
    • アクセス グループ(AnalystReader など)を構成し、基盤となる Google グループにマッピングして、権限管理を簡素化します。
    • 特定のアセットに対して、これらのアクセス グループに必要な IAM ロールを割り当てます。
    • 契約(システム アスペクト)を追加して、合意したデータ更新の頻度、しきい値を正式に伝えます。

    詳細については、データ プロダクトを作成するをご覧ください。

  • 管理: データ プロダクトを更新し、見つけやすさを確保します。これには、次の操作が含まれます。

    • 基本情報、アセット、権限、補足情報(メタデータ)、リッチテキスト ドキュメントを更新します。
    • データ プロダクトを検出してアクセスをリクエストする権限を消費者に付与します。

    詳細については、データ プロダクトを管理するをご覧ください。

データ プロダクトのカスタマー ジャーニー

このジャーニーでは、信頼できるデータをすばやく見つけて、そのデータを使用するために必要な権限を取得することに重点を置いています。

  • 検出: 特定のビジネス上の問題に関連する信頼できるデータを見つけます。これには、次の操作が含まれます。

    • Dataplex Universal Catalog 検索でキーワードまたは自然言語を使用して、パッケージ化されたデータ プロダクトを検索します。
    • データ プロダクトの概要、アセット、契約、その他のアスペクトを確認して、使用に適しているかどうかを判断します。

    詳細については、データ プロダクトを検索するをご覧ください。

  • アクセスをリクエストする: データ プロダクトのオーナーにデータへのアクセス権をリクエストします。

    詳細については、データ プロダクトへのアクセスをリクエストするをご覧ください。

  • 使用: 基盤となるアセットにアクセスして分析情報を生成します。これには、次の操作が含まれます。

    • 承認されると、プロダクトとそのアセットにアクセスできます。たとえば、アセットが BigQuery テーブルの場合、BigQuery Studio に移動してデータを直接クエリできます。

    詳細については、データ プロダクトを消費するをご覧ください。

サポートされているアセット

データ プロダクトは、1 つ以上のデータアセットで構成できます。プレビュー版では、次のデータアセットがサポートされています。

  • BigQuery データセット
  • BigQuery テーブル
  • BigQuery のビュー

制限事項

  • データ プロダクトとその基盤となるアセットは、同じGoogle Cloud ロケーションに存在する必要があります。
  • データ プロダクトに含めることが可能なアセットは最大 10 個です。
  • プロジェクトごとに最大 50 個のデータ プロダクトを作成できます。
  • リクエスト承認ワークフローの統合はプレビュー版では利用できません。ただし、データ プロダクトの消費者は、データ プロダクトのオーナーにメール通知をトリガーすることで、アクセスをリクエストできます。

次のステップ