Dataplex Universal Catalog を使用すると、BigQuery テーブル内の列の一般的な統計的特性(一般的な値、データ分布、NULL 数)を特定できます。この情報は、データをより効果的に理解、分析するために活用できます。
Dataplex Universal Catalog データ プロファイル スキャンの詳細については、データ プロファイリングの概要をご覧ください。
始める前に
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
必要なロール
データ プロファイル スキャンの作成と管理に必要な権限を取得するには、プロジェクトやテーブルなどのリソースに対する次の IAM ロールの付与を、管理者に依頼してください。
-
データ プロファイル スキャンを作成、実行、更新、削除するには:
データスキャンのあるプロジェクトに対する Dataplex DataScan 編集者(
roles/dataplex.dataScanEditor)ロール。 -
Dataplex Universal Catalog が BigQuery データに対してデータ プロファイル スキャンを実行できるようにするには:
Dataplex Universal Catalog サービス アカウントに、スキャンを実行するプロジェクトに対する BigQuery ジョブユーザー(
roles/bigquery.jobUser)ロール、スキャン対象のテーブルに対する BigQuery データ閲覧者(roles/bigquery.dataViewer)ロール。 -
Cloud Storage データを使用する BigQuery 外部テーブルに対してデータ プロファイル スキャンを実行するには:
Dataplex Universal Catalog サービス アカウントに、Cloud Storage バケットに対するストレージ オブジェクト閲覧者(
roles/storage.objectViewer)ロールとStorage レガシー バケット読み取り(roles/storage.legacyBucketReader)ロール。 -
データ プロファイル スキャンの結果、ジョブ、履歴を表示するには:
データスキャンのあるプロジェクトに対する Dataplex DataScan 閲覧者(
roles/dataplex.dataScanViewer)ロール。 -
データ プロファイル スキャン結果を BigQuery テーブルにエクスポートするには:
テーブルに対する BigQuery データ編集者(
roles/bigquery.dataEditor)ロール。 -
データ プロファイル スキャン結果を Dataplex Universal Catalog に公開するには:
@bigqueryエントリ グループに対する Dataplex Catalog 編集者(roles/dataplex.catalogEditor)ロール。 -
BigQuery での公開されたデータ プロファイル スキャン結果を [データ プロファイル] タブで表示するには:
テーブルに対する BigQuery データ閲覧者(
roles/bigquery.dataViewer)ロール。
ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
必要な権限
カスタムロールを使用する場合は、次の IAM 権限を付与する必要があります。
- データ プロファイル スキャンを作成、実行、更新、削除するには:
- プロジェクトに対する
dataplex.datascans.create-DataScanを作成 - データスキャンに対する
dataplex.datascans.update-DataScanの説明を更新 - データスキャンに対する
dataplex.datascans.delete-DataScanを削除 - データスキャンに対する
dataplex.datascans.run-DataScanを実行 - データスキャンに対する
dataplex.datascans.get-DataScanの詳細を表示(結果を除く) - プロジェクトに対する
dataplex.datascans.list-DataScanのリストを取得 - データスキャン ジョブに対する
dataplex.dataScanJobs.get- DataScan ジョブリソースを読み取る - データスキャンに対する
dataplex.dataScanJobs.list- プロジェクト内の DataScan ジョブリソースを一覧表示
- プロジェクトに対する
- Dataplex Universal Catalog が BigQuery データに対してデータ プロファイル スキャンを実行できるようにするには:
- プロジェクトに対する
bigquery.jobs.create- ジョブを実行 - テーブルに対する
bigquery.tables.get- テーブルのメタデータを取得 - テーブルに対する
bigquery.tables.getData- テーブルデータを取得
- プロジェクトに対する
- Cloud Storage データを使用する BigQuery 外部テーブルのデータ プロファイル スキャンを実行するには:
- バケットに対する
storage.buckets.get- バケット メタデータを読み取る - オブジェクトに対する
storage.objects.get- オブジェクト データを読み取る
- バケットに対する
- データ プロファイル スキャン結果、ジョブ、履歴を表示するには:
- データスキャンの
dataplex.datascans.getData- 結果を含むDataScanの詳細を表示 - プロジェクトに対する
dataplex.datascans.list-DataScanのリストを取得 - データスキャン ジョブに対する
dataplex.dataScanJobs.get- DataScan ジョブリソースを読み取る - データスキャンに対する
dataplex.dataScanJobs.list- プロジェクト内の DataScan ジョブリソースを一覧表示
- データスキャンの
- データ プロファイル スキャン結果を BigQuery テーブルにエクスポートするには:
- データセットに対する
bigquery.tables.create- テーブルを作成 - テーブルに対する
bigquery.tables.updateData- テーブルにデータを書き込む
- データセットに対する
- データ プロファイル スキャン結果を Dataplex Universal Catalog に公開するには:
- エントリ グループに対する
dataplex.entryGroups.useDataProfileAspect- Dataplex Universal Catalog データ プロファイル スキャンで、結果を Dataplex Universal Catalog に保存できるようにします - また、次のいずれかの権限が必要です。
- テーブルに対する
bigquery.tables.update- テーブルのメタデータを更新 - エントリに対する
dataplex.entries.update- エントリを更新
- テーブルに対する
- エントリ グループに対する
- BigQuery または Dataplex Universal Catalog のテーブルで公開されたデータ プロファイルの結果を表示するには:
- テーブルに対する
bigquery.tables.get- テーブルのメタデータを取得 - テーブルに対する
bigquery.tables.getData- テーブルデータを取得
- テーブルに対する
テーブルで BigQuery の行レベルのセキュリティが使用されている場合、Dataplex Universal Catalog は Dataplex Universal Catalog サービス アカウントに表示される行のみをスキャンできます。すべての行を Dataplex Universal Catalog でスキャンできるようにするには、述語が TRUE の行フィルタに Dataplex Universal Catalog サービス アカウントを追加します。
テーブルで BigQuery の列レベルのセキュリティが使用されている場合、保護された列をスキャンするためのアクセス権が、Dataplex Universal Catalog に必要です。アクセス権を付与するには、Dataplex Universal Catalog サービス アカウントに、テーブルで使用されているすべてのポリシータグに対する Data Catalog のきめ細かい読み取り(roles/datacatalog.fineGrainedReader)ロールを付与します。データスキャンを作成または更新しているユーザーには、保護された列に対する権限も必要です。
Dataplex Universal Catalog サービス アカウントにロールを付与する
データ プロファイル スキャンを実行するには、Dataplex Universal Catalog で使用されるサービス アカウントに、BigQuery ジョブの実行と BigQuery テーブルデータの読み取りの権限が必要です。必要なロールを付与する手順は次のとおりです。
Dataplex Universal Catalog サービス アカウントのメールアドレスを取得します。対象のプロジェクトで、まだデータ プロファイル スキャンまたはデータ品質スキャンを作成していない場合は、次の
gcloudコマンドを実行してサービス ID を生成します。gcloud beta services identity create --service=dataplex.googleapis.comこのコマンドは、
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.comという形式のサービス アカウントのメールアドレスを返します。サービス アカウントがすでに存在する場合は、 Google Cloud コンソールの IAM ページで Dataplex 名のプリンシパルを表示すると、メールアドレスを確認できます。
サービス アカウントに、プロジェクトに対する BigQuery ジョブユーザー(
roles/bigquery.jobUser)ロールを付与します。このロールにより、サービス アカウントでスキャンの BigQuery ジョブを実行できます。gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \ --role="roles/bigquery.jobUser"次のように置き換えます。
PROJECT_ID: 実際の Google Cloud プロジェクト ID。service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: Dataplex Universal Catalog サービス アカウントのメールアドレス。
サービス アカウントに、プロファイリングする各テーブルに対する BigQuery データ閲覧者(
roles/bigquery.dataViewer)ロールを付与します。このロールは、テーブルに対する読み取り専用アクセス権を付与します。gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \ --role="roles/bigquery.dataViewer"次のように置き換えます。
DATASET_ID: テーブルがあるデータセットの ID。TABLE_ID: プロファイリングするテーブルの ID。service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: Dataplex Universal Catalog サービス アカウントのメールアドレス。データ プロファイル スキャンを作成する
コンソール
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
[データ プロファイル スキャンの作成] をクリックします。
省略可: 表示名を入力します。
ID を入力します。リソースの命名規則をご覧ください。
(省略可)説明を入力します。
[テーブル] フィールドで、[参照] をクリックします。スキャンするテーブルを選択し、[選択] をクリックします。
マルチリージョン データセット内のテーブルの場合は、データスキャンを作成するリージョンを選択します。
Dataplex Universal Catalog レイク内で整理されたテーブルを参照するには、[Dataplex レイク内のブラウジング] をクリックします。
[スコープ] フィールドで、[増分] または [データ全体] を選択します。
- [増分データ] を選択した場合、[タイムスタンプ列] フィールドで、新しいレコードが追加されるたびに増加し、新しいレコードの識別に使用できる BigQuery テーブルから、
DATE型またはTIMESTAMP型の列を選択します。DATE型またはTIMESTAMP型の列でパーティション分割されたテーブルでは、パーティション列をタイムスタンプ フィールドとして使用することをおすすめします。
- [増分データ] を選択した場合、[タイムスタンプ列] フィールドで、新しいレコードが追加されるたびに増加し、新しいレコードの識別に使用できる BigQuery テーブルから、
省略可: データをフィルタするには、次のいずれかを行います。
行でフィルタするには、[行のフィルタリング] チェックボックスをオンにします。GoogleSQL 構文の
WHERE句で使用できる有効な SQL 式を入力します。例:col1 >= 0。フィルタには、複数の列に対する SQL 条件を組み合わせることができます。例:
col1 >= 0 AND col2 < 10。列でフィルタするには、[フィルタ列] チェックボックスをオンにします。
プロファイル スキャンに列を含めるには、[列を含める] フィールドで [参照] をクリックします。含める列を選択し、[選択] をクリックします。
プロファイル スキャンから列を除外するには、[列を除外する] フィールドで [参照] をクリックします。除外する列を選択し、[選択] をクリックします。
データ プロファイル スキャンにサンプリングを適用するには、[サンプリング サイズ] リストでサンプリングの割合を選択します。0.0~100.0% の範囲のパーセンテージ値(小数点以下 3 桁まで)を選択します。
大規模なデータセットの場合は、低いサンプリング率を選択します。たとえば、1 PB のテーブルの場合、0.1%~1.0% の値を入力すると、データ プロファイルは 1~10 TB のデータをサンプリングします。
結果を返すには、サンプリング データにレコードが 100 個以上必要です。
増分データスキャンの場合、データ プロファイル スキャンは最新の増分にサンプリングを適用します。
省略可:Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページでソーステーブルのデータ プロファイル スキャン結果を公開するには、[結果を BigQuery と Dataplex Catalog に公開する] チェックボックスをオンにします。
最新のスキャン結果は、ソーステーブルの BigQuery ページと Dataplex Universal Catalog ページの [データ プロファイル] タブで表示できます。ユーザーが公開されたスキャン結果にアクセスできるようにするには、このドキュメントのデータ プロファイル スキャン結果へのアクセス権を付与するをご覧ください。
次の場合には、公開オプションを使用できないことがあります。
- テーブルに必要な権限がない。
- 結果を公開するように別のデータ品質スキャンが設定されている。
[スケジュール] セクションで、次のいずれかのオプションを選択します。
繰り返し: データ プロファイル スキャンを 1 時間ごと、毎日、毎週、毎月、カスタムのいずれかのスケジュールで実行します。スキャンの実行頻度と時間を指定します。[カスタム] を選択した場合は、cron 形式を使用してスケジュールを指定します。
オンデマンド: データ プロファイル スキャンをオンデマンドで実行します。
[続行] をクリックします。
省略可: スキャン結果を BigQuery 標準テーブルにエクスポートします。[スキャン結果を BigQuery テーブルにエクスポートする] セクションで、次の操作を行います。
[BigQuery データセットの選択] フィールドで、[参照] をクリックします。 データ プロファイルのスキャン結果を保存する BigQuery データセットを選択します。
[BigQuery テーブル] フィールドで、データ プロファイル スキャンの結果を保存するテーブルを指定します。既存のテーブルを使用している場合は、エクスポート テーブル スキーマと互換性があることを確認してください。指定したテーブルが存在しない場合は、Dataplex Universal Catalog によって作成されます。
省略可: ラベルを追加します。ラベルは、関連するオブジェクトをまとめてグループ化したり、他の Google Cloud リソースと組み合わせてグループ化できる Key-Value ペアです。
スキャンを作成するには、[作成] をクリックします。
スケジュールをオンデマンドに設定した場合は、[スキャンを実行] をクリックして、今すぐスキャンを実行することもできます。
gcloud
データ プロファイル スキャンを作成するには、
gcloud dataplex datascans create data-profileコマンドを使用します。ソースデータが Dataplex Universal Catalog レイクに編成されている場合は、
--data-source-entityフラグを指定します。gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY
ソースデータが Dataplex Universal Catalog レイクに編成されていない場合は、
--data-source-resourceフラグを指定します。gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-resource=DATA_SOURCE_RESOURCE
次の変数を置き換えます。
DATASCAN: データ プロファイル スキャンの名前。LOCATION: データ プロファイル スキャンを作成する Google Cloud リージョン。DATA_SOURCE_ENTITY: データ プロファイル スキャンのデータを含む Dataplex Universal Catalog エンティティ。例:projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entityDATA_SOURCE_RESOURCE: データ プロファイル スキャンのデータを含むリソースの名前。例://bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
C#
C#
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある C# の設定手順を完了してください。詳細については、Dataplex Universal Catalog C# API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Go
Go
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Go の設定手順を完了してください。詳細については、Dataplex Universal Catalog Go API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
Java
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Java の設定手順を完了してください。詳細については、Dataplex Universal Catalog Java API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Python
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Python の設定手順を完了してください。詳細については、Dataplex Universal Catalog Python API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Ruby
Ruby
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Ruby の設定手順を完了してください。詳細については、Dataplex Universal Catalog Ruby API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
REST
データ プロファイル スキャンを作成するには、
dataScans.createメソッドを使用します。テーブル スキーマをエクスポートする
データ プロファイル スキャンの結果を既存の BigQuery テーブルにエクスポートする場合は、次のテーブル スキーマと互換性があることを確認してください。
列名 列データ型 サブフィールド名(該当する場合) サブフィールドのデータ型 モード 例 data_profile_scan struct/recordresource_namestringnull でも可 //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascanproject_idstringnull でも可 test-projectlocationstringnull でも可 us-central1data_scan_idstringnull でも可 test-datascandata_source struct/recordresource_namestringnullable エンティティのケース:
//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entityテーブルのケース:
//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-tabledataplex_entity_project_idstringnullable test-projectdataplex_entity_project_numberintegernull でも可 123456789012dataplex_lake_idstringnullable (ソースがエンティティである場合にのみ有効)
test-lakedataplex_zone_idstringnullable (ソースがエンティティである場合にのみ有効)
test-zonedataplex_entity_idstringnullable (ソースがエンティティである場合にのみ有効)
test-entitytable_project_idstringnullable dataplex-tabletable_project_numberint64null でも可 345678901234dataset_idstringnullable (ソースがテーブルである場合にのみ有効)
test-datasettable_idstringnullable (ソースがテーブルである場合にのみ有効)
test-tabledata_profile_job_id stringnull でも可 caeba234-cfde-4fca-9e5b-fe02a9812e38data_profile_job_configuration jsontriggerstringnull でも可 ondemand/scheduleincrementalbooleannull でも可 true/falsesampling_percentfloatnullable (0-100)
20.0(20% を示す)row_filterstringnullable col1 >= 0 AND col2 < 10column_filterjsonnull でも可 {"include_fields":["col1","col2"], "exclude_fields":["col3"]}job_labels jsonnull でも可 {"key1":value1}job_start_time timestampnull でも可 2023-01-01 00:00:00 UTCjob_end_time timestampnull でも可 2023-01-01 00:00:00 UTCjob_rows_scanned integernull でも可 7500column_name stringnull でも可 column-1column_type stringnull でも可 stringcolumn_mode stringnull でも可 repeatedpercent_null floatnullable (0.0-100.0)
20.0(20% を示す)percent_unique floatnullable (0.0-100.0)
92.5min_string_length integernullable (列の型が文字列の場合にのみ有効)
10max_string_length integernullable (列の型が文字列の場合にのみ有効)
4average_string_length floatnullable (列の型が文字列の場合にのみ有効)
7.2min_value floatnull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) max_value floatnull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) average_value floatnull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) standard_deviation floatnull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) quartile_lower integernull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) quartile_median integernull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) quartile_upper integernull でも可 (列の型が数値 - 整数 / 浮動小数点の場合のみ有効) top_n struct/record - repeatedvaluestringnull でも可 "4009"countintegernull でも可 20percentfloatnull でも可 10(10% を示す)テーブルの設定をエクスポートする
BigQueryExport テーブルにエクスポートする場合は、次のガイドラインに沿って行ってください。
resultsTableフィールドには、//bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}の形式を使用します。- BigQuery 標準テーブルを使用します。
- スキャンが作成または更新されたときにテーブルが存在しない場合は、Dataplex Universal Catalog によってテーブルが作成されます。
- デフォルトでは、テーブルは
job_start_time列で毎日パーティション分割されます。 - テーブルを他の構成でパーティション分割する場合や、パーティションを作成しない場合は、必要なスキーマと構成でテーブルを再作成し、事前に作成されたテーブルを結果テーブルとして用意します。
- 結果テーブルがソーステーブルと同じロケーションにあることを確認します。
- プロジェクトで VPC-SC が構成されている場合、結果テーブルはソーステーブルと同じ VPC-SC 境界内にある必要があります。
- スキャン実行ステージでテーブルが変更されると、現在実行中のジョブが以前の結果テーブルにエクスポートされ、テーブルの変更は次のスキャンジョブから有効になります。
- テーブル スキーマを変更しないでください。列をカスタマイズする必要がある場合は、テーブルにビューを作成します。
- 費用を削減するには、ユースケースに基づいてパーティションの有効期限を設定します。詳細については、パーティションの有効期限を設定する方法をご覧ください。
複数のデータ プロファイル スキャンを作成する
Google Cloud コンソールを使用して、BigQuery データセット内の複数のテーブルのデータ プロファイル スキャンを同時に構成できます。
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
[データ プロファイル スキャンの作成] をクリックします。
[複数のデータ プロファイル スキャン] オプションを選択します。
ID 接頭辞を入力します。Dataplex Universal Catalog は、指定された接頭辞と一意の接尾辞を使用して、スキャン ID を自動的に生成します。
すべてのデータ プロファイル スキャンの説明を入力します。
[データセット] フィールドで [参照] をクリックします。テーブルを選択するデータセットを選択します。[選択] をクリックします。
データセットがマルチリージョンの場合は、データ プロファイル スキャンを作成するリージョンを選択します。
スキャンの共通設定を構成します。
[スコープ] フィールドで、[増分] または [データ全体] を選択します。
データ プロファイル スキャンにサンプリングを適用するには、[サンプリング サイズ] リストでサンプリングのパーセンテージを選択します。
0.0%~100.0% の間のパーセンテージ値(小数点以下 3 桁まで)を選択します。
省略可:Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページでソーステーブルのデータ プロファイル スキャン結果を公開するには、[結果を BigQuery と Dataplex Catalog に公開する] チェックボックスをオンにします。
最新のスキャン結果は、ソーステーブルの BigQuery ページと Dataplex Universal Catalog ページの [データ プロファイル] タブで表示できます。ユーザーが公開されたスキャン結果にアクセスできるようにするには、このドキュメントのデータ プロファイル スキャン結果へのアクセス権を付与するをご覧ください。
[スケジュール] セクションで、次のいずれかのオプションを選択します。
繰り返し: データ プロファイル スキャンを 1 時間ごと、毎日、毎週、毎月、カスタムのいずれかのスケジュールで実行します。スキャンの実行頻度と時間を指定します。[カスタム] を選択した場合は、cron 形式を使用してスケジュールを指定します。
オンデマンド: データ プロファイル スキャンをオンデマンドで実行します。
[続行] をクリックします。
[テーブルを選択] フィールドで、[参照] をクリックします。スキャンするテーブルを 1 つ以上選択し、[選択] をクリックします。
[続行] をクリックします。
省略可: スキャン結果を BigQuery 標準テーブルにエクスポートします。[スキャン結果を BigQuery テーブルにエクスポートする] セクションで、次の操作を行います。
[BigQuery データセットの選択] フィールドで、[参照] をクリックします。 データ プロファイルのスキャン結果を保存する BigQuery データセットを選択します。
[BigQuery テーブル] フィールドで、データ プロファイル スキャンの結果を保存するテーブルを指定します。既存のテーブルを使用している場合は、エクスポート テーブル スキーマと互換性があることを確認してください。指定したテーブルが存在しない場合は、Dataplex Universal Catalog によって作成されます。
Dataplex Universal Catalog は、すべてのデータ プロファイル スキャンに同じ結果テーブルを使用します。
省略可: ラベルを追加します。ラベルは、関連するオブジェクトをまとめてグループ化したり、他の Google Cloud リソースと組み合わせてグループ化できる Key-Value ペアです。
スキャンを作成するには、[作成] をクリックします。
スケジュールをオンデマンドに設定した場合は、[スキャンを実行] をクリックして、今すぐスキャンを実行することもできます。
データ プロファイル スキャンを実行する
コンソール
-
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
- データ プロファイル スキャンをクリックして実行します。
- [今すぐ実行] をクリックします。
gcloud
データ プロファイル スキャンを実行するには、
gcloud dataplex datascans runコマンドを使用します。gcloud dataplex datascans run DATASCAN \ --location=LOCATION
次の変数を置き換えます。
DATASCAN: データ プロファイル スキャンの名前。LOCATION: データ プロファイル スキャンが作成された Google Cloud リージョン。
C#
C#
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある C# の設定手順を完了してください。詳細については、Dataplex Universal Catalog C# API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Go
Go
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Go の設定手順を完了してください。詳細については、Dataplex Universal Catalog Go API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
Java
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Java の設定手順を完了してください。詳細については、Dataplex Universal Catalog Java API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Python
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Python の設定手順を完了してください。詳細については、Dataplex Universal Catalog Python API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Ruby
Ruby
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Ruby の設定手順を完了してください。詳細については、Dataplex Universal Catalog Ruby API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
REST
データ プロファイル スキャンを実行するには、
dataScans.runメソッドを使用します。データ プロファイル スキャンの結果を表示する
コンソール
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
データ プロファイル スキャンの名前をクリックします。
[概要] セクションには、スキャンが実行された日時、スキャンされたテーブル レコードの数、ジョブのステータスなど、最新のジョブに関する情報が表示されます。
[Data profile scan configuration] セクションには、スキャンについての詳細が表示されます。
スキャンされたテーブルの列、スキャンで見つかった列に関する統計情報、ジョブログなど、ジョブの詳細情報を確認するには、[ジョブ履歴] タブをクリックします。ジョブ ID をクリックします。
gcloud
データ プロファイル スキャン ジョブの結果を表示するには、
gcloud dataplex datascans jobs describeコマンドを使用します。gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
次の変数を置き換えます。
JOB: データ プロファイル スキャン ジョブのジョブ ID。LOCATION: データ プロファイル スキャンが作成された Google Cloud リージョン。DATASCAN: ジョブが属するデータ プロファイル スキャンの名前。--view=FULL: スキャンジョブの結果を表示するには、FULLを指定します。
C#
C#
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある C# の設定手順を完了してください。詳細については、Dataplex Universal Catalog C# API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Go
Go
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Go の設定手順を完了してください。詳細については、Dataplex Universal Catalog Go API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
Java
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Java の設定手順を完了してください。詳細については、Dataplex Universal Catalog Java API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Python
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Python の設定手順を完了してください。詳細については、Dataplex Universal Catalog Python API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Ruby
Ruby
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Ruby の設定手順を完了してください。詳細については、Dataplex Universal Catalog Ruby API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
REST
データ プロファイル スキャンの結果を表示するには、
dataScans.getメソッドを使用します。公開された結果を表示する
データ プロファイル スキャンの結果が Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページに公開されている場合は、ソーステーブルの [データ プロファイル] タブで最新のスキャン結果を確認できます。
Google Cloud コンソールで、Dataplex Universal Catalog の [検索] ページに移動します。
テーブルを検索して選択します。
[データ プロファイル] タブをクリックします。
最後に公開された結果が表示されます。
最新のデータ プロファイル スキャン ジョブを表示する
コンソール
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
データ プロファイル スキャンの名前をクリックします。
[ジョブの最新結果] タブをクリックします。
正常に完了した実行が少なくとも 1 つある場合、[ジョブの最新結果] タブには、最新のジョブに関する情報が表示されます。スキャンされたテーブルの列と、スキャンで検出された列に関する統計情報が一覧表示されます。
gcloud
正常に完了した最新のデータ プロファイル スキャンを表示するには、
gcloud dataplex datascans describeコマンドを使用します。gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
次の変数を置き換えます。
DATASCAN: 最新のジョブを表示するデータ プロファイル スキャンの名前。LOCATION: データ プロファイル スキャンが作成された Google Cloud リージョン。--view=FULL: スキャンジョブの結果を表示するには、FULLを指定します。
REST
最新のスキャンジョブを表示するには、
dataScans.getメソッドを使用します。スキャン結果の履歴を表示する
Dataplex Universal Catalog には、過去 300 件のジョブ、または過去 1 年間のジョブのいずれか早いほうのデータ プロファイル スキャンの履歴が保存されます。
コンソール
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
データ プロファイル スキャンの名前をクリックします。
[ジョブ履歴] タブをクリックします。
[ジョブ履歴] タブには、過去のジョブに関する情報(各ジョブでスキャンされたレコード数、ジョブのステータス、ジョブの実行時刻など)が表示されます。
ジョブについての詳細情報を表示するには、[ジョブ ID] 列でジョブをクリックします。
gcloud
過去のデータ プロファイル スキャン ジョブを表示するには、
gcloud dataplex datascans jobs listコマンドを使用します。gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
次の変数を置き換えます。
LOCATION: データ プロファイル スキャンが作成された Google Cloud リージョン。DATASCAN: ジョブを表示するデータ プロファイル スキャンの名前。
C#
C#
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある C# の設定手順を完了してください。詳細については、Dataplex Universal Catalog C# API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Go
Go
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Go の設定手順を完了してください。詳細については、Dataplex Universal Catalog Go API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
Java
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Java の設定手順を完了してください。詳細については、Dataplex Universal Catalog Java API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Python
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Python の設定手順を完了してください。詳細については、Dataplex Universal Catalog Python API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Ruby
Ruby
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Ruby の設定手順を完了してください。詳細については、Dataplex Universal Catalog Ruby API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
REST
過去のデータ プロファイル スキャン ジョブを表示するには、
dataScans.jobs.listメソッドを使用します。データ プロファイル スキャンの結果へのアクセスを許可する
組織内のユーザーがスキャン結果を表示できるようにするには、次の操作を行います。
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
結果を共有するデータ品質スキャンをクリックします。
[権限] タブをクリックします。
手順は次のとおりです。
- プリンシパルにアクセス権を付与するには、[ アクセス権を付与] をクリックします。関連するプリンシパルに Dataplex DataScan データ閲覧者ロールを付与します。
- プリンシパルからアクセス権を削除するには、Dataplex DataScan データ閲覧者ロールを削除するプリンシパルを選択します。[アクセス権を削除] をクリックし、プロンプトが表示されたら確定します。
特定のテーブルのデータ プロファイル スキャンを管理する
このドキュメントの手順では、 Google Cloud コンソールの Dataplex Universal Catalog の [データのプロファイリングと品質] ページを使用して、プロジェクト全体でデータ プロファイル スキャンを管理する方法について説明します。
特定のテーブルを操作するときに、データ プロファイル スキャンを作成して管理することもできます。 Google Cloud コンソールのテーブルの Dataplex Universal Catalog ページで、[データ プロファイル] タブを使用します。手順は次のとおりです。
Google Cloud コンソールで、Dataplex Universal Catalog の [検索] ページに移動します。
テーブルを検索して選択します。
[データ プロファイル] タブをクリックします。
結果が公開されているデータ プロファイル スキャンがテーブルにあるかどうかに応じて、次の方法でテーブルのデータ プロファイル スキャンを操作できます。
データ プロファイル スキャンの結果が公開されている: 最新の公開済みスキャンの結果がページに表示されます。
このテーブルのデータ プロファイル スキャンを管理するには、[データ プロファイル スキャン] をクリックし、次のいずれかのオプションを選択します。
新しいスキャンを作成: 新しいデータ プロファイル スキャンを作成します。詳細については、このドキュメントのデータ プロファイル スキャンを作成するをご覧ください。テーブルの詳細ページからスキャンを作成すると、テーブルが事前に選択されます。
今すぐ実行: スキャンを実行します。
スキャン構成を編集: 表示名、フィルタ、サンプリング サイズ、スケジュールなどの設定を編集します。
スキャン権限を管理: スキャン結果にアクセスできるユーザーを制御します。詳細については、このドキュメントのデータ プロファイル スキャンの結果へのアクセスを許可するをご覧ください。
過去の結果を見る: 以前のデータ プロファイル スキャン ジョブの詳細情報を表示します。詳細については、このドキュメントのデータ プロファイル スキャン結果を表示すると過去のスキャン結果を表示するのセクションをご覧ください。
すべてのスキャンを表示: このテーブルに適用されるデータ プロファイル スキャンのリストを表示します。
データ プロファイル スキャンの結果が公開されていない: [クイック データ プロファイル] の横にあるメニューをクリックし、次のオプションから選択します。
データ プロファイリングをカスタマイズ: 新しいデータ プロファイル スキャンを作成します。詳細については、このドキュメントのデータ プロファイル スキャンを作成するをご覧ください。テーブルの詳細ページからスキャンを作成すると、テーブルが事前に選択されます。
以前のプロファイルを表示: このテーブルに適用されるデータ プロファイル スキャンのリストを表示します。
データ プロファイル スキャンを更新する
コンソール
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
データ プロファイル スキャンの名前をクリックします。
[編集] をクリックし、値を編集します。
[保存] をクリックします。
gcloud
データ プロファイル スキャンを更新するには、
gcloud dataplex datascans update data-profileコマンドを使用します。gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
次の変数を置き換えます。
DATASCAN: 更新するデータ プロファイル スキャンの名前。LOCATION: データ プロファイル スキャンが作成された Google Cloud リージョン。DESCRIPTION: データ プロファイル スキャンの新しい説明。
C#
C#
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある C# の設定手順を完了してください。詳細については、Dataplex Universal Catalog C# API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Go
Go
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Go の設定手順を完了してください。詳細については、Dataplex Universal Catalog Go API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Java
Java
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Java の設定手順を完了してください。詳細については、Dataplex Universal Catalog Java API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
Python
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Python の設定手順を完了してください。詳細については、Dataplex Universal Catalog Python API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
Ruby
Ruby
このサンプルを試す前に、クライアント ライブラリを使用した Dataplex Universal Catalog のクイックスタートにある Ruby の設定手順を完了してください。詳細については、Dataplex Universal Catalog Ruby API のリファレンス ドキュメントをご覧ください。
Dataplex Universal Catalog で認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証の設定をご覧ください。
REST
データ プロファイル スキャンを編集するには、
dataScans.patchメソッドを使用します。データ プロファイル スキャンを削除する
コンソール
Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。
削除するスキャンをクリックします。
[削除] をクリックし、プロンプトが表示されたら確定します。
gcloud
データ プロファイル スキャンを削除するには、
gcloud dataplex datascans deleteコマンドを使用します。gcloud dataplex datascans delete DATASCAN \ --location=LOCATION --async
次の変数を置き換えます。
DATASCAN: 削除するデータ プロファイル スキャンの名前。LOCATION: データ プロファイル スキャンが作成された Google Cloud リージョン。
REST
データ プロファイル スキャンを削除するには、
dataScans.deleteメソッドを使用します。次のステップ
- データ分析情報を生成してデータを探索する方法について学習する。
- データ プロファイリングについて学習する。
- 自動データ品質について学習する。
- 自動データ品質を使用する方法を学習する。