Dataplex Universal Catalog は、メタデータを保存、管理、アクセスするための一元的なプラットフォームを提供します。このドキュメントでは、Dataplex Universal Catalog のメタデータ管理機能について説明します。
Dataplex Universal Catalog は、 Google Cloud リソースとオンプレミス リソースの統合インベントリを提供します。 Google Cloud リソースのメタデータは、Dataplex Universal Catalog によって自動的に取得され、保存されます。サードパーティ リソースの独自のメタデータを Dataplex Universal Catalog に取り込むこともできます。
ビジネス メタデータとテクニカル メタデータを追加してインベントリを拡充し、リソースのコンテキストと知識を取得できます。また、組織全体でデータを検索して検出し、データアセットに対するデータ ガバナンスを有効にすることもできます。
デフォルトのカタログ エクスペリエンスを Dataplex Universal Catalog に設定できます。Data Catalog を使用している場合は、スタンドアロンの Data Catalog のコンテンツと使用状況を Dataplex Universal Catalog に移行します。詳細については、Data Catalog から Dataplex Universal Catalog への移行をご覧ください。
メタデータ管理の仕組み
Dataplex Universal Catalog のメタデータ管理機能は、次のコンセプトに基づいています。
- エントリ
エントリはデータアセットを表します。これは、Data Catalog のエントリと類似しています。
例:
test-project.sales_data.customer_orders
という名前の BigQuery テーブルはエントリとして表されます。エントリの列は、BigQuery テーブルの単一の列や JSON ファイルのフィールドなど、データアセットの特定のサブセクションを表します。列を使用すると、エントリ全体だけでなく、エントリ内の個々のフィールドにメタデータを追加できます。列は直接定義しません。
schema
タイプの側面をエントリに付加すると、列が作成されます。列はパスとも呼ばれます。例:
customer_orders
エントリ内のemail_address
フィールドに個人を特定できる情報(PII)が含まれていることを記述するには、email_address
列にアスペクトを適用します。エントリの詳細については、エントリをご覧ください。
- Aspect
アスペクトは、関連するメタデータ フィールドのセットです。アスペクトをエントリにアタッチして、エントリ全体を説明できます。ほとんどのメタデータは、エントリ内のアスペクトで記述されます。これは、Data Catalog のタグに似ています。ただし、アスペクトはスタンドアロン リソースとしてではなく、エントリ内に保存されます。
例:
order_id
、order_date
、email_address
など、customer_orders
エントリのすべての列を定義するには、customer_orders
エントリにschema
アスペクトを適用します。email_address
列にメールアドレスが含まれていることを指定するには、email_address
列にschema
アスペクトを付加します。アスペクトの詳細については、アスペクトをご覧ください。
- エントリのタイプ
エントリタイプは、エントリを作成するためのテンプレートです。必須のメタデータ要素が設定されます。この要素は、このタイプのエントリの必須アスペクトのリストとして概説されます。エントリタイプは、特定のデータアセットに必要なアスペクト タイプを指定します。
例: すべてのエントリに必要なメタデータが含まれるようにするには、
StandardOperationalTable
というエントリタイプを作成し、このタイプに新しいエントリを作成するたびにOwnerInfo
アスペクトを付加するようにします。エントリタイプの詳細については、エントリタイプをご覧ください。
- アスペクト タイプ
アスペクト タイプは、アスペクトに再利用できるテンプレートです。すべてのアスペクトは、アスペクト タイプのインスタンスです。これは、Data Catalog のタグ テンプレートに似ています。
例: 連絡先情報の再利用可能なテンプレートを定義するには、
owner_name
、email
、support_team
のフィールドを含むContactInfo
という名前のアスペクト タイプを定義します。このテンプレートからContactInfo
アスペクトを作成し、エントリまたは列に関連付けることができます。アスペクト タイプの詳細については、アスペクト タイプをご覧ください。
- エントリ グループ
エントリ グループは、エントリのコンテナであり、エントリの管理単位として機能します。たとえば、エントリ グループを使用して、エントリ グループ内のエントリの Identity and Access Management アクセス制御、プロジェクトのアトリビューション、ロケーションを構成します。これは、Data Catalog のエントリ グループに似ています。
例: 財務チームがすべてのテーブルの権限を一度に管理したい。
production_finance_data
という名前のエントリ グループを作成し、その中にcustomer_orders
テーブル、quarterly_revenue
テーブル、employee_salaries
テーブルのエントリを含めることができます。エントリ グループの詳細については、エントリ グループをご覧ください。
図 1. エントリとエントリ グループ 図 2. アスペクト タイプとエントリタイプ
Dataplex Universal Catalog と Data Catalog
Dataplex Universal Catalog には、メタデータを管理するための統合機能が用意されています。メタデータのストレージと API メソッドは Dataplex API に統合されています。
Dataplex Universal Catalog の主なメタデータ管理機能は次のとおりです。
より堅牢なメタモデル
- タイプ化されたエントリ。カスタム エントリに必要なメタデータ コンテンツを定義することで、最小限のメタデータ標準を適用できます。
- ユーザーが構成可能なカスタム エントリ用のメタモデル。カスタム取り込みの堅牢性を高め、カスタム メタデータの一貫性と包括性を向上させます。
- リスト、マップ、配列などのネスト構造のサポートといったより多様で複雑なメタデータをサポートします。
単一のアトミックな CRUD オペレーションを通じてエントリに関連付けられたすべてのメタデータとやり取りする機能や、検索またはリストのレスポンスに関連付けられた複数のメタデータのアノテーションを取得する機能など、スケーラビリティが向上しました。
次の表は、Dataplex Universal Catalog と Data Catalog のメタデータ管理機能を比較したものです。
機能 | Dataplex Universal Catalog | Data Catalog |
---|---|---|
サポートされている Google Cloud ソース | このドキュメントのサポートされている Google Cloud ソースのセクションに記載されているすべてのソース。 | エントリとエントリ グループで説明されているすべてのソース |
カスタムソースの取り込み | エントリタイプで定義された、管理対象の構造を持つカスタム エントリへの取り込み。 Data Catalog のカスタム エントリとエントリ グループは、Dataplex Universal Catalog の | 汎用カスタム エントリへの取り込み。 |
メタデータ拡張 | エントリのメタデータ コンテキストは、ビジネス用語集、アスペクト、アスペクト タイプを使用してキャプチャされます。 | エントリのメタデータ コンテキストは、ビジネス用語集、タグ、タグ テンプレートを使用してキャプチャされます。 |
検索 | 検索は次の対象に対して実行されます。
検索結果には、検索が実行されるプロジェクトと同じ組織と同じ VPC-SC 境界に属するリソースのみが含まれます。 Google Cloud コンソールを使用する場合、これはコンソールで選択したプロジェクトです。 エントリを検索するには、検索に使用されるプロジェクトで、Dataplex Catalog 管理者、Dataplex Catalog 編集者、または Dataplex Catalog 閲覧者のいずれかの IAM ロールが必要です。検索結果に対する権限は、選択したプロジェクトとは別にチェックされます。 |
検索は次の対象に対して実行されます。
|
データリネージ |
データリネージは、Dataplex API を使用してアセットノードのエントリの詳細を取得します。 Google Cloud コンソールに、アタッチされたアスペクトが表示されます。 |
データリネージは、Data Catalog API を使用してアセットノードのエントリの詳細を取得します。 |
ビジネス用語集 |
ビジネス用語集を使用すると、ビジネス用語の分類法を構築して、用語をデータアセットと列に関連付けることができます。用語にリンクされているアセットは検索して見つけることができます。 |
ビジネス用語集を使用すると、ビジネス用語の分類法を構築して、用語を列に関連付けることができます。用語にリンクされているアセットは検索して見つけることができます。 |
次の表に示すのは、Dataplex Universal Catalog のリソースと Data Catalog リソースの関係です。
Dataplex Universal Catalog リソース | Data Catalog リソース | 説明 |
---|---|---|
アスペクト タイプ(global ) |
公開タグ テンプレート | タグ テンプレートはリージョン リソースです。ただし、タグ テンプレートを使用してリージョン間でタグを作成できます。タグ テンプレートは、Dataplex Universal Catalog の global アスペクト タイプに対応しています。 |
オプションのアスペクト | 公開タグ | Data Catalog の公開タグは、Dataplex Universal Catalog のオプションのアスペクトに対応しています。 |
エントリ グループ | エントリ グループ | Google Cloud ソースの場合、@bigquery などのシステム エントリ グループは、Dataplex Universal Catalog でプロジェクトごとに設定されます。 |
カスタム エントリの必須アスペクト | カスタム エントリ | Data Catalog と Dataplex Universal Catalog では、カスタム エントリのコンセプトが似ています。 標準エントリ プロパティは、Dataplex Universal Catalog で必須アスペクトとしてモデル化されます。 |
システム エントリの必須アスペクト | システム(Google Cloud)のエントリ | BigQuery テーブルの Schema など、組み込みエンティティを記述するメタデータは、システム定義のアスペクト タイプの必須アスペクトでキャプチャされます。 |
ビジネス用語集 | ビジネス用語集 | 用語集を使用してビジネス用語の分類法を構築し、企業全体でビジネス コンテキストを標準化します。 |
Data Catalog で使用できるが Dataplex Universal Catalog ではサポートされていない機能の詳細については、このドキュメントのDataplex Universal Catalog でサポートされていないメタデータ管理機能をご覧ください。
既存の Data Catalog ユーザーの場合
Data Catalog をすでに使用している場合は、次の点に注意してください。
- Data Catalog で作成したカスタム エントリ、概要のコンテキスト、用語集、エントリ グループは、Dataplex Universal Catalog で使用できます。
- 管理者は、Data Catalog のタグ テンプレートとタグのコンテンツを Dataplex Universal Catalog で同時に利用できるように選択できます。詳細については、Data Catalog から Dataplex Universal Catalog への移行をご覧ください。
- Dataplex Universal Catalog でデータアセットを検索すると、Dataplex Universal Catalog で直接作成されたメタデータと、Data Catalog から Dataplex Universal Catalog に移行されたメタデータの両方が結果に含まれます。
- Data Catalog でデータアセットを検索すると、Data Catalog で作成されたメタデータのみが結果に含まれます。
- Data Catalog のエントリ グループの説明が 1,024 文字を超えると、Dataplex Universal Catalog では 1,024 文字に切り捨てられます。
- 管理者が Data Catalog で作成した用語集と、ビジネス用語と列間の関連リンクを Dataplex Universal Catalog で利用できるようにするには、移行プロセスに沿って操作します。
スタンドアロンの Data Catalog のコンテンツと使用状況を Dataplex Universal Catalog に移行する方法については、Data Catalog から Dataplex Universal Catalog への移行をご覧ください。
サポート対象のソース
- Cloud Storage データの自動検出
- 次の Google Cloud ソースのメタデータは、Dataplex Universal Catalog に自動的に取り込まれます。
- BigQuery Sharing(旧 Analytics Hub)のエクスチェンジとリスティング
- BigQuery のデータセット、テーブル、モデル、ルーティン、接続、リンクされたデータセット
- Bigtable のインスタンス、クラスタ、テーブル(列ファミリーの詳細を含む)
- Dataform リポジトリとコードアセット
- Cloud SQL インスタンス、データベース、スキーマ、テーブル、ビュー - Cloud SQL の統合を有効にするをご覧ください。
- Dataproc Metastore のサービス、データベース、テーブル
- Pub/Sub トピック
- Spanner のインスタンス、データベース、テーブル、ビュー
- Vertex AI のモデル、データセット、特徴グループ、特徴ビュー、オンライン ストア インスタンス
サードパーティ ソースから Dataplex Universal Catalog にメタデータをインポートするには、マネージド接続パイプラインを使用します。
プロジェクトとロケーションの制約
Dataplex Universal Catalog のカタログ リソースは、さまざまなプロジェクトとロケーションに保存されます。次の制限が適用されます。
ロケーション:
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
global
である必要があります。 - エントリに追加するアスペクトは、エントリと同じロケーションに保存されているアスペクト タイプに基づくか、アスペクト タイプが
global
である必要があります。 - エントリタイプは、エントリタイプと同じロケーションに保存されているアスペクト タイプで構成する必要があります。
- エントリのロケーションは、エントリタイプのロケーションと一致するか、エントリタイプが
プロジェクト:
- エントリタイプがカスタム アスペクト タイプを参照する場合、アスペクト タイプはエントリタイプと同じロケーション、同じプロジェクトに存在する必要があります。
Dataplex Universal Catalog でサポートされていないメタデータ管理機能
Data Catalog で利用可能な次の機能は、Dataplex Universal Catalog ではサポートされていません。
- 非公開アスペクトと非公開アスペクト タイプ(Data Catalog の非公開タグと非公開タグ テンプレートの類似物)のコンセプトは、Dataplex Universal Catalog にはありません。
- Dataplex Universal Catalog の検索ではポリシータグの検索はサポートされていないため、述語
policytag
とpolicytagid
は機能しません。 - Data Catalog のカスタム エントリ グループ、カスタム エントリ、タグ テンプレート、タグをユ Dataplex Universal Catalog に移行しても、元の権限は引き継がれません。コピーしたメタデータを使用する前に、IAM 権限を明示的に構成する必要があります。
- Sensitive Data Protection の検査結果を Dataplex Universal Catalog のカタログに直接送信することはできません。代わりに、Sensitive Data Protection の検査結果を Data Catalog に送信してから、結果を Dataplex Universal Catalog に移行できます。
- API を使用して、プロジェクト全体のエントリタイプとアスペクト タイプを一覧表示することはできません。リスト リクエストのスコープはプロジェクトに限定できます。
- レイク、ゾーン、アセット、エンティティを Dataplex Universal Catalog のエントリとして登録することはできません。つまり、レイク、ゾーン、アセット、エンティティにアタッチされている Data Catalog メタデータは、Dataplex Universal Catalog のカタログに引き継がれません。また、Dataplex Universal Catalog の検索を使用する場合、ゾーンとエンティティの検索はサポートされていません。また、レイクとゾーンによるフィルタリングもサポートされていません。レイクとゾーンは、Dataplex Universal Catalog のカタログとは別に使用できます。
- 完全な再現率を保証する管理者検索はサポートされていません。代わりに、メタデータを Cloud Storage にエクスポートし、BigQuery からクエリできます。
Dataplex Universal Catalog と Data Catalog の両方でサポートされている機能とリソースの比較については、このドキュメントの Dataplex Universal Catalog と Data Catalog をご覧ください。
料金
Dataplex Universal Catalog では、メタデータ ストレージ SKU に基づいてメタデータ ストレージの料金が請求されます。詳細については、Dataplex Universal Catalog の料金をご覧ください。
以下の機能を使用しても、料金は発生しません。
- Dataplex Universal Catalog でのカタログ リソースの作成と管理
- Dataplex Universal Catalog での検索 API 呼び出し
- Google Cloud コンソールの [Dataplex Universal Catalog] ページを使用した検索クエリ
次のステップ
- Dataplex Universal Catalog でリソースを検索する方法を確認する。
- アセットを管理してメタデータを拡充する方法を確認する。
- エントリの管理方法とカスタムソースを取り込む方法を確認する。
- Data Catalog から Dataplex Universal Catalog への移行の詳細を確認する。
- Dataplex Universal Catalog への用語集の移行に関する詳細を確認する。