Dataplex Universal Catalog の概要

Dataplex Universal Catalog は、組織内のデータアセットの管理、理解、使用を支援する統合されたインテリジェントなデータ ガバナンス ソリューションです。Dataplex Universal Catalog は、AI を使用してさまざまなシステムに分散されたデータの操作を簡素化し、貴重な分析情報の取得に集中できるようにします。

たとえば、Cloud Storage、Spanner、Pub/Sub に保存される大量の販売データ、在庫データ、顧客データを生成するグローバル小売企業の場合を考えます。このようにデータがシステム間で分散している場合、ガバナンスの管理、品質の確保、コンプライアンスの維持は複雑で時間がかかる作業になり得ます。Dataplex Universal Catalog は、組織のデータアセットのリネージの検出、プロファイリング、検証、追跡、アクセス制御を行う一元的なデータカタログを提供することで、これらのプロセスを簡素化します。

このドキュメントでは、Dataplex Universal Catalog のコア機能について説明し、主なユースケースを紹介します。

Dataplex Universal Catalog の機能

Dataplex Universal Catalog は、次の機能を使用してデータを管理します。

  • メタデータのカタログ化。 Google Cloud リソース(BigQuery、Cloud SQL、Spanner、Vertex AI、Pub/Sub、Dataform、Dataproc Metastore 内)や Dataplex Universal Catalog にインポートするサードパーティ リソースのメタデータを取得して、インスタント データカタログを取得します。
  • データの検出。Cloud Storage バケット内の構造化データと非構造化データをスキャンして、メタデータを抽出してカタログ化します。
  • データ分析情報。AI を使用してデータに関する自然言語の質問を生成し、パターンの検出、データ品質の評価、統計分析を行います。
  • データのプロファイリング。BigQuery テーブル内の列データの一般的な特性(一般的なデータ値、データ分散、NULL 数など)を特定します。これにより、データ分類と品質保証の情報が得られます。
  • データ品質。組織のポリシーと照らし合わせてデータを検証し、データが品質基準を満たしていない場合はアラートをログに記録することにより、BigQuery テーブル内のデータの品質を定義して測定します。
  • ビジネス用語集。ビジネス関連の用語と定義を組織全体で管理し、テーブルの列に用語を関連付けることで、データの使用を常に把握できるようにします。
  • データリネージ。データがシステム内でどのように移動するのかを追跡します。具体的には、データの発生源、伝達先、そして加えられた変換処理を把握できます。

Dataplex Universal Catalog は、分散検出からビジネス分析情報まで、エンドツーエンドのデータ ライフサイクルをサポートします。ガバナンス機能は BigQuery からも利用できます。

ユースケース

Dataplex Universal Catalog を使用すると、次のことができます。

  • データを検出して把握する。Dataplex Universal Catalog を使用すると、組織全体のデータリソースを可視化できます。これにより、データ消費ニーズに関連したリソースを見つけることができます。データリソースのコンテキストが提供されるため、データ利用者のニーズに対するデータリソースの適合性を把握できます。

  • データ ガバナンスとデータ マネジメントを有効にする。Dataplex Universal Catalog が提供するメタデータによって、データ ガバナンス機能とデータ マネジメント機能への情報の付与と強化が可能です。

  • 中央データカタログを作成します。Dataplex Universal Catalog により、 Google Cloud リソースから自動的に収集されたメタデータが保存され、メタデータへのアクセスが可能になります。Google Cloud 以外のシステムのユーザー独自のメタデータを統合できます。ビジネス メタデータとテクニカル メタデータの追加アノテーションを使用して、すべてのメタデータを拡充できます。

使ってみる

Dataplex Universal Catalog を初めて使用する場合は、クイックスタートを試すことをおすすめします。

次のステップ