本页面介绍了如何管理 Storage Insights 数据集配置,以控制数据的来源、范围和保留期限。您将了解如何查看、列出、更新和删除配置,以及如何查看、查询和取消关联已关联的数据集。
获取所需的角色
如需获得管理数据集配置所需的权限,请让管理员向您授予源项目的以下 IAM 角色:
-
列出、更新、删除和查看数据集配置:
Storage Insights Admin (
roles/storageinsights.admin) -
查看和解除关联数据集:
-
Storage Insights Analyst (
roles/storageinsights.analyst) -
BigQuery Admin (
roles/bigquery.admin)
-
Storage Insights Analyst (
-
删除关联的数据集:
BigQuery Admin (
roles/bigquery.admin) -
在 BigQuery 中查看和查询数据集:
-
Storage Insights Viewer (
roles/storageinsights.viewer) -
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Data Viewer (
roles/bigquery.dataViewer)
-
Storage Insights Viewer (
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
这些预定义角色包含管理数据集配置所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
您必须拥有以下权限才能管理数据集配置:
-
查看和列出数据集配置:
-
storageinsights.datasetConfigs.get -
storageinsights.datasetConfigs.list -
storage.buckets.getObjectInsights
-
-
更新和删除数据集配置:
-
storageinsights.datasetConfigs.update -
storageinsights.datasetConfigs.delete -
storage.buckets.getObjectInsights
-
-
取消与 BigQuery 数据集的关联:
storageinsights.datasetConfigs.unlinkDataset -
查询关联的 BigQuery 数据集:
bigquery.jobs.create or bigquery.jobs.*
查看和查询关联的数据集
如需查看和查询关联的数据集,请按照以下步骤操作:
- 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。
您的项目会显示已创建的数据集配置的列表。
点击要查看的数据集配置所对应的 BigQuery 关联数据集。
Google Cloud 控制台会显示 BigQuery 关联的数据集。 如需了解元数据的数据集架构,请参阅元数据的数据集架构。
您可以按照与查询任何其他 BigQuery 表相同的方式查询关联的数据集中的表和视图。
对数据集解除关联
如需停止将数据集配置发布到 BigQuery 数据集,请解除数据集关联。如需取消关联数据集,请完成以下步骤:
控制台
- 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。
点击生成要解除关联的数据集的数据集配置的名称。
在 BigQuery 关联的数据集部分中,点击解除数据集关联。
命令行
如需取消关联数据集,请运行
gcloud storage insights dataset-configs delete-link命令:gcloud storage insights dataset-configs delete-link DATASET_CONFIG_ID --location=LOCATION
您需要进行如下替换:
将
DATASET_CONFIG_ID替换为生成要解除关联的数据集的数据集配置的名称。将
LOCATION替换为数据集和数据集配置的位置。例如us-central1。
您还可以指定完整的数据集配置路径。例如:
gcloud storage insights dataset-configs delete-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
您需要进行如下替换:
JSON API
安装并初始化 gcloud CLI,以便为
Authorization标头生成访问令牌。创建一个包含以下信息的 JSON 文件:
{ "name": "DATASET_NAME" }
您需要进行如下替换:
将
DATASET_NAME替换为要解除关联的数据集的名称。例如:my_project.my_dataset276daa7e_2991_4f4f_b9d4_e354b48426a2。使用
cURL,通过unlinkDatasetDatasetConfig 请求调用 JSON API:curl --request POST --data-binary @JSON_FILE_NAME \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID:unlinkDataset?" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
您需要进行如下替换:
查看数据集配置
如需查看数据集配置,请完成以下步骤:
控制台
- 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。
点击要查看的数据集配置的名称。
系统会显示数据集配置详细信息。
命令行
如需描述数据集配置,请运行
gcloud storage insights dataset-configs describe命令:gcloud storage insights dataset-configs describe DATASET_CONFIG_ID \ --location=LOCATION
您需要进行如下替换:
将
DATASET_CONFIG_ID替换为数据集配置的名称。将
LOCATION替换为数据集和数据集配置的位置。
您还可以指定完整的数据集配置路径。例如:
gcloud storage insights dataset-configs describe projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
您需要进行如下替换:
JSON API
安装并初始化 gcloud CLI,以便为
Authorization标头生成访问令牌。使用
cURL,通过GetDatasetConfig 请求调用 JSON API:curl -X GET \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
您需要进行如下替换:
列出数据集配置
如需列出项目中的数据集配置,请完成以下步骤:
控制台
- 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。
系统会显示数据集配置列表。
命令行
如需列出项目中的数据集配置,请运行
gcloud storage insights dataset-configs list命令:gcloud storage insights dataset-configs list --location=LOCATION
您需要进行如下替换:
- 将
LOCATION替换为数据集和数据集配置的位置。例如us-central1。
您可以使用以下可选标志来指定列表调用行为:
使用
--page-size指定每页返回的结果数上限。使用
--filter=FILTER过滤结果。如需详细了解如何使用--filter标志,请运行gcloud topic filters并参阅相关文档。使用
--sort-by=SORT_BY_VALUE可指定一个以英文逗号分隔的资源字段键名称列表,以对资源进行排序。 例如--sort-by=DATASET_CONFIG_ID。
- 将
JSON API
安装并初始化 gcloud CLI,以便为
Authorization标头生成访问令牌。使用
cURL,通过GetDatasetConfig 请求调用 JSON API:curl -X GET \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
您需要进行如下替换:
更新数据集配置
如需更新数据集配置,请完成以下步骤:
控制台
- 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。
点击要更新的数据集配置的名称。
在数据集配置标签页中,点击修改图标 以更新相应字段。
命令行
如需更新数据集配置,请运行
gcloud storage insights dataset-configs update命令:gcloud storage insights dataset-configs update DATASET_CONFIG_ID \ --location=LOCATION
您需要进行如下替换:
将
DATASET_CONFIG_ID替换为数据集配置的名称。将
LOCATION替换为数据集和数据集配置的位置。
使用以下标志更新数据集配置的属性:
使用
--skip-verification可跳过验证流程中的检查和失败,其中包括对所需 IAM 权限的检查。如果使用,则系统可能会从数据集中排除部分或全部存储桶。使用
--retention-period-days=DAYS指定要在数据集快照中捕获的移动天数的数据。例如90。使用
--activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS可指定数据集中活动数据的保留期限。默认情况下,活动数据包含在数据集中,并沿用数据集的保留期限。如需替换数据集保留期限,请指定活动数据的保留天数。如需排除活动数据,请将 ACTIVITY_RETENTION_PERIOD_DAYS 设置为0。使用
--description=DESCRIPTION为数据集配置编写说明。使用
--organization=ORGANIZATION_ID指定源项目的组织 ID。如果未指定,则默认为源项目的组织 ID。
JSON API
安装并初始化 gcloud CLI,以便为
Authorization标头生成访问令牌。创建一个包含以下可选信息的 JSON 文件:
{ "organization_number": "ORGANIZATION_ID", "source_projects": { "project_numbers": "PROJECT_NUMBERS" }, "retention_period_days": "RETENTION_PERIOD", "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS" }
您需要进行如下替换:
将
ORGANIZATION_ID替换为源项目所属组织的资源 ID。如果未指定,则默认为源项目的组织 ID。PROJECT_NUMBERS替换为要包含在数据集中的项目编号。您可以采用列表格式指定一个或多个项目。RETENTION_PERIOD替换为要在数据集快照中捕获的移动天数的数据。例如90。ACTIVITY_DATA_RETENTION_PERIOD_DAYS,其中包含要在数据集快照中捕获的活动数据的天数。默认情况下,活动数据包含在数据集中,并沿用数据集的保留期限。如需替换数据集保留期限,请指定活动数据的保留天数。如需排除活动数据,请将 ACTIVITY_RETENTION_PERIOD_DAYS 设置为0。
如需更新数据集配置,请使用
cURL通过PatchDatasetConfig 请求调用 JSON API:curl -X PATCH --data-binary @JSON_FILE_NAME \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID?updateMask=UPDATE_MASK" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"
您需要进行如下替换:
JSON_FILE_NAME替换为您在上一步中创建的 JSON 文件的路径。将
PROJECT_ID替换为数据集配置所属的项目 ID。将
LOCATION替换为数据集和数据集配置的位置。例如us-central1。将
DATASET_CONFIG_ID替换为要更新的数据集配置的名称。UPDATE_MASK是此请求更新的字段名称的英文逗号分隔列表。这些字段采用 fieldMask 格式,并且是DatasetConfig资源的一部分。将
SERVICE_ACCOUNT替换为服务账号。例如test-service-account@test-project.iam.gserviceaccount.com。
删除数据集配置
如需删除数据集配置,请完成以下步骤:
控制台
- 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。
点击要删除的数据集配置的名称。
点击删除 。
命令行
如需删除数据集配置,请运行
gcloud storage insights dataset-configs delete命令:gcloud storage insights dataset-configs delete DATASET_CONFIG_ID \ --location=LOCATION
您需要进行如下替换:
将
DATASET_CONFIG_ID替换为您要删除的数据集配置的名称。将
LOCATION替换为数据集和数据集配置的位置。例如us-central1。
使用以下标志可删除数据集配置:
- 使用
--auto-delete-link解除与要删除的数据集配置所生成的数据集的关联。您必须先解除数据集的关联,然后才能删除生成该数据集的数据集配置。
您还可以指定完整的数据集配置路径。例如:
gcloud storage insights dataset-configs delete projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
JSON API
安装并初始化 gcloud CLI,以便为
Authorization标头生成访问令牌。使用
cURL,通过DeleteDatasetConfig 请求调用 JSON API:curl -X DELETE \ "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID" \ --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \ --header "Accept: application/json" \ --header "Content-Type: application/json"您需要进行如下替换: