管理Storage Insights数据集配置

本页面介绍了如何管理 Storage Insights 数据集配置,以控制数据的来源、范围和保留期限。您将了解如何查看、列出、更新和删除配置,以及如何查看、查询和取消关联已关联的数据集。

获取所需的角色

如需获得管理数据集配置所需的权限,请让管理员向您授予源项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

这些预定义角色包含管理数据集配置所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

您必须拥有以下权限才能管理数据集配置:

  • 查看和列出数据集配置:
    • storageinsights.datasetConfigs.get
    • storageinsights.datasetConfigs.list
    • storage.buckets.getObjectInsights
  • 更新和删除数据集配置:
    • storageinsights.datasetConfigs.update
    • storageinsights.datasetConfigs.delete
    • storage.buckets.getObjectInsights
  • 取消与 BigQuery 数据集的关联: storageinsights.datasetConfigs.unlinkDataset
  • 查询关联的 BigQuery 数据集: bigquery.jobs.create or bigquery.jobs.*

您也可以使用自定义角色或其他预定义角色来获取这些权限。

查看和查询关联的数据集

如需查看和查询关联的数据集,请按照以下步骤操作:

  1. 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。

    前往 Storage Insights

    您的项目会显示已创建的数据集配置的列表。

  2. 点击要查看的数据集配置所对应的 BigQuery 关联数据集。

    Google Cloud 控制台会显示 BigQuery 关联的数据集。 如需了解元数据的数据集架构,请参阅元数据的数据集架构

  3. 您可以按照与查询任何其他 BigQuery 表相同的方式查询关联的数据集中的表和视图。

如需停止将数据集配置发布到 BigQuery 数据集,请解除数据集关联。如需取消关联数据集,请完成以下步骤:

  1. 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。

    前往 Storage Insights

  2. 点击生成要解除关联的数据集的数据集配置的名称。

  3. BigQuery 关联的数据集部分中,点击解除数据集关联

  1. 如需取消关联数据集,请运行 gcloud storage insights dataset-configs delete-link 命令:

    gcloud storage insights dataset-configs delete-link DATASET_CONFIG_ID --location=LOCATION

    您需要进行如下替换:

    • DATASET_CONFIG_ID 替换为生成要解除关联的数据集的数据集配置的名称。

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    您还可以指定完整的数据集配置路径。例如:

    gcloud storage insights dataset-configs delete-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    您需要进行如下替换:

    • DESTINATION_PROJECT_ID 替换为包含数据集配置的项目的 ID。如需详细了解项目 ID,请参阅创建和管理项目

    • DATASET_CONFIG_ID 替换为生成要解除关联的数据集的数据集配置的名称。

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

  1. 安装并初始化 gcloud CLI,以便为 Authorization 标头生成访问令牌。

  2. 创建一个包含以下信息的 JSON 文件:

    {
      "name": "DATASET_NAME"
    }

    您需要进行如下替换:

    DATASET_NAME 替换为要解除关联的数据集的名称。例如:my_project.my_dataset276daa7e_2991_4f4f_b9d4_e354b48426a2

  3. 使用 cURL,通过 unlinkDataset DatasetConfig 请求调用 JSON API

    curl --request POST --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID:unlinkDataset?" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    您需要进行如下替换:

    • JSON_FILE_NAME 替换为您在上一步中创建的 JSON 文件的路径。

    • PROJECT_ID 替换为数据集配置所属的项目 ID

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    • DATASET_CONFIG_ID 替换为生成要解除关联的数据集的数据集配置的名称。

    • SERVICE_ACCOUNT 替换为服务账号。例如 test-service-account@test-project.iam.gserviceaccount.com

查看数据集配置

如需查看数据集配置,请完成以下步骤:

控制台

  1. 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。

    前往 Storage Insights

  2. 点击要查看的数据集配置的名称。

    系统会显示数据集配置详细信息。

命令行

  1. 如需描述数据集配置,请运行 gcloud storage insights dataset-configs describe 命令:

    gcloud storage insights dataset-configs describe DATASET_CONFIG_ID \
      --location=LOCATION

    您需要进行如下替换:

    • DATASET_CONFIG_ID 替换为数据集配置的名称。

    • LOCATION 替换为数据集和数据集配置的位置。

    您还可以指定完整的数据集配置路径。例如:

    gcloud storage insights dataset-configs describe projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

    您需要进行如下替换:

    • DESTINATION_PROJECT_ID 替换为包含数据集配置的项目的 ID。如需详细了解项目 ID,请参阅创建和管理项目

    • DATASET_CONFIG_ID 替换为生成您要查看的数据集的数据集配置的名称。

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

JSON API

  1. 安装并初始化 gcloud CLI,以便为 Authorization 标头生成访问令牌。

  2. 使用 cURL,通过 Get DatasetConfig 请求调用 JSON API

    curl -X GET \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    您需要进行如下替换:

    • PROJECT_ID 替换为数据集配置所属的项目 ID

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    • DATASET_CONFIG_ID 替换为数据集配置的名称。

    • SERVICE_ACCOUNT 替换为服务账号。例如 test-service-account@test-project.

列出数据集配置

如需列出项目中的数据集配置,请完成以下步骤:

控制台

  1. 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。

    前往 Storage Insights

    系统会显示数据集配置列表。

命令行

  1. 如需列出项目中的数据集配置,请运行 gcloud storage insights dataset-configs list 命令:

    gcloud storage insights dataset-configs list --location=LOCATION

    您需要进行如下替换:

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    您可以使用以下可选标志来指定列表调用行为:

    • 使用 --page-size 指定每页返回的结果数上限。

    • 使用 --filter=FILTER 过滤结果。如需详细了解如何使用 --filter 标志,请运行 gcloud topic filters 并参阅相关文档。

    • 使用 --sort-by=SORT_BY_VALUE 可指定一个以英文逗号分隔的资源字段键名称列表,以对资源进行排序。 例如 --sort-by=DATASET_CONFIG_ID

JSON API

  1. 安装并初始化 gcloud CLI,以便为 Authorization 标头生成访问令牌。

  2. 使用 cURL,通过 Get DatasetConfig 请求调用 JSON API

    curl -X GET \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    您需要进行如下替换:

    • PROJECT_ID 替换为数据集配置所属的项目 ID

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    • SERVICE_ACCOUNT 替换为服务账号。例如 test-service-account@test-project.iam.gserviceaccount.com

更新数据集配置

如需更新数据集配置,请完成以下步骤:

控制台

  1. 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。

    前往 Storage Insights

  2. 点击要更新的数据集配置的名称。

  3. 数据集配置标签页中,点击修改图标 以更新相应字段。

命令行

  1. 如需更新数据集配置,请运行 gcloud storage insights dataset-configs update 命令:

    gcloud storage insights dataset-configs update DATASET_CONFIG_ID \
      --location=LOCATION

    您需要进行如下替换:

    • DATASET_CONFIG_ID 替换为数据集配置的名称。

    • LOCATION 替换为数据集和数据集配置的位置。

    使用以下标志更新数据集配置的属性:

    • 使用 --skip-verification 可跳过验证流程中的检查和失败,其中包括对所需 IAM 权限的检查。如果使用,则系统可能会从数据集中排除部分或全部存储桶。

    • 使用 --retention-period-days=DAYS 指定要在数据集快照中捕获的移动天数的数据。例如 90

    • 使用 --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS 可指定数据集中活动数据的保留期限。默认情况下,活动数据包含在数据集中,并沿用数据集的保留期限。如需替换数据集保留期限,请指定活动数据的保留天数。如需排除活动数据,请将 ACTIVITY_RETENTION_PERIOD_DAYS 设置为 0

    • 使用 --description=DESCRIPTION 为数据集配置编写说明。

    • 使用 --organization=ORGANIZATION_ID 指定源项目的组织 ID。如果未指定,则默认为源项目的组织 ID。

JSON API

  1. 安装并初始化 gcloud CLI,以便为 Authorization 标头生成访问令牌。

  2. 创建一个包含以下可选信息的 JSON 文件:

    {
      "organization_number": "ORGANIZATION_ID",
      "source_projects": {
        "project_numbers": "PROJECT_NUMBERS"
      },
      "retention_period_days": "RETENTION_PERIOD",
      "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS"
    }

    您需要进行如下替换:

    • ORGANIZATION_ID 替换为源项目所属组织的资源 ID。如果未指定,则默认为源项目的组织 ID。

    • PROJECT_NUMBERS 替换为要包含在数据集中的项目编号。您可以采用列表格式指定一个或多个项目。

    • RETENTION_PERIOD 替换为要在数据集快照中捕获的移动天数的数据。例如 90

    • ACTIVITY_DATA_RETENTION_PERIOD_DAYS,其中包含要在数据集快照中捕获的活动数据的天数。默认情况下,活动数据包含在数据集中,并沿用数据集的保留期限。如需替换数据集保留期限,请指定活动数据的保留天数。如需排除活动数据,请将 ACTIVITY_RETENTION_PERIOD_DAYS 设置为 0

  3. 如需更新数据集配置,请使用 cURL 通过 Patch DatasetConfig 请求调用 JSON API

    curl -X PATCH --data-binary @JSON_FILE_NAME \
    "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID?updateMask=UPDATE_MASK" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
      --header "Accept: application/json" \
      --header "Content-Type: application/json"
    

    您需要进行如下替换:

    • JSON_FILE_NAME 替换为您在上一步中创建的 JSON 文件的路径。

    • PROJECT_ID 替换为数据集配置所属的项目 ID

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    • DATASET_CONFIG_ID 替换为要更新的数据集配置的名称。

    • UPDATE_MASK 是此请求更新的字段名称的英文逗号分隔列表。这些字段采用 fieldMask 格式,并且是 DatasetConfig 资源的一部分。

    • SERVICE_ACCOUNT 替换为服务账号。例如 test-service-account@test-project.iam.gserviceaccount.com

删除数据集配置

如需删除数据集配置,请完成以下步骤:

控制台

  1. 在 Google Cloud 控制台中,前往 Cloud Storage Storage Insights页面。

    前往 Storage Insights

  2. 点击要删除的数据集配置的名称。

  3. 点击删除

命令行

  1. 如需删除数据集配置,请运行 gcloud storage insights dataset-configs delete 命令:

    gcloud storage insights dataset-configs delete DATASET_CONFIG_ID \
      --location=LOCATION

    您需要进行如下替换:

    • DATASET_CONFIG_ID 替换为您要删除的数据集配置的名称。

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    使用以下标志可删除数据集配置:

    • 使用 --auto-delete-link 解除与要删除的数据集配置所生成的数据集的关联。您必须先解除数据集的关联,然后才能删除生成该数据集的数据集配置。

    您还可以指定完整的数据集配置路径。例如:

    gcloud storage insights dataset-configs delete projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID

JSON API

  1. 安装并初始化 gcloud CLI,以便为 Authorization 标头生成访问令牌。

  2. 使用 cURL,通过 Delete DatasetConfig 请求调用 JSON API

    curl -X DELETE \
      "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID" \
      --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
        --header "Accept: application/json" \
        --header "Content-Type: application/json"
    

    您需要进行如下替换:

    • PROJECT_ID 替换为数据集配置所属的项目 ID

    • LOCATION 替换为数据集和数据集配置的位置。例如 us-central1

    • DATASET_CONFIG_ID 替换为您要删除的数据集配置的名称。

    • SERVICE_ACCOUNT 替换为服务账号。例如 test-service-account@test-project.iam.gserviceaccount.com

后续步骤