本文档介绍了 Storage Insights 数据集如何通过提供数据可见性和分析洞见来帮助您管理 Cloud Storage 环境。
Storage Insights 数据集会为组织、文件夹、项目或特定存储桶中的 Cloud Storage 存储桶和对象创建可查询的元数据和活动索引。如需查询元数据和活动索引,您需要将数据集关联到 BigQuery。然后,您可以使用关联的 BigQuery 数据集来分析、查询和直观呈现数据。将数据集关联到 BigQuery,以便查询元数据和活动索引。
Storage Insights 数据集是一项独有功能,仅通过 Storage Intelligence 订阅提供。 Google Cloud 会提供 Storage Intelligence 30 天入门级试用。您可以启用试用,以便深入了解 Cloud Storage 使用情况并采取相应措施。如需详细了解试用,请参阅 Storage Intelligence 30 天入门级试用。
概览
Storage Insights 数据集可提供定义范围内所有项目、存储桶和对象的元数据、活动数据、错误和事件的滚动快照。通过持续收集信息并编入索引,数据集可创建一个全面视图,帮助您了解数据状态、监控 Cloud Storage 资源,并获取相关分析洞见,以便管理和优化存储空间。
该数据集以 BigQuery 关联数据集的形式提供,其中包含一组具有以下架构的表:
元数据:项目、存储桶和对象的元数据快照。如需详细了解元数据架构,请参阅元数据的数据集架构。
活动数据:对象的变更和错误记录,以及存储桶和项目的汇总活动分析洞见。如需详细了解活动数据架构,请参阅活动数据的数据集架构。
错误和事件:有关快照处理事件和错误的信息。如需详细了解错误和事件架构,请参阅事件和错误的数据集架构。
Storage Insights 数据集的应用场景
Storage Insights 数据集可提供视图,让您获得组织范围内的精细数据分析洞见。以下部分介绍了数据集的应用场景。
了解您的存储空间资产
项目、存储桶和对象元数据视图可让您深入了解数据。元数据视图可帮助您完成以下任务:
- 发现异常情况,例如数据位于意外区域。
- 确定优化机会,例如找到临时文件或重复文件。
- 查询特定分析洞见,例如过去一天内创建的对象或
PDF文件的总数。 - 通过根据查询结果提取一组对象的前缀列表,深入分析要操作的对象。如需了解如何以无服务器方式对数十亿个对象执行操作,请参阅存储批量操作。
分析活动模式
借助存储桶活动视图、项目活动视图和对象事件视图,您可以执行以下操作:
分析操作模式并识别不活跃的存储桶。
监控对象的操作,了解存储空间资产随时间的变化情况。
映射最活跃的项目、存储桶和前缀。
了解区域级存储桶活动
区域级存储桶活动视图会显示请求和响应字节等字段,有助于您了解经常与存储桶交互的区域。分析区域级存储桶活动,以确定是否需要存储桶重定位:
查看某个区域中存储桶的总出站流量和入站流量,以确定可能更适合区域级类别(而不是多区域类别)的存储桶。
评估所有区域内和区域间的总数据流量。
加快问题排查速度
通过分析对象事件视图中的错误信息,您可以检查导致错误的对象操作,分析错误原因,并加快问题排查速度。您还可以检测错误数量最多的项目和存储桶,以确定成功率和错误率。例如,您可以确定受影响的存储桶、项目和根本原因(例如资源配额或带宽限制),从而排查 429 错误。
Storage Insights 数据集的优势
Storage Insights 数据集以可查询的格式在 BigQuery 中提供有关存储空间资产的元数据和活动信息。使用 Storage Insights 数据集具有以下优势:
在可自定义的范围内分析存储空间资产,以获取组织范围内的分析洞见,或指定要分析的文件夹、项目或存储桶。
在 BigQuery 中提供数据后,您可以将 SQL 和自然语言查询与 Gemini 搭配使用来分析数据。如需了解详情,请参阅在 Gemini 的协助下分析数据。
您可以通过连接到 Looker 信息中心来直观呈现数据。 您可以将 Storage Intelligence 信息中心用作模板,其中提供了您可以从数据集获得的分析洞见示例。您可以使用该模板连接到数据集或添加自定义图表。如需了解如何使用该模板,请参阅 Storage Intelligence 信息中心连接说明。
Storage Insights 数据集的工作原理
如需使用 Storage Insights 数据集,请先在项目中配置数据集。指定要跟踪其数据的组织、文件夹或项目。 创建后,请向服务代理授予必要的权限,以便生成数据集。然后,您可以将数据集关联到 BigQuery 以进行查询。配置完成后,该服务会自动收集对象元数据、存储桶元数据、操作和错误的每日快照并注入到 Cloud Storage 拥有的 BigQuery 实例中。系统会根据配置的保留期限来保留数据,并以优化的方式存储数据,以尽可能降低存储和分析费用。
在数据集配置中,您可以定义要收集哪些数据、将数据存储在何处以及如何管理数据。
下表介绍了配置数据集时必须定义的关键属性:
| 属性 | 说明 | 详细信息和限制 |
|---|---|---|
| 数据集范围 | 指定包含您要纳入数据集的存储桶和对象的资源(组织、项目或文件夹)。 |
您可以单独指定项目或文件夹,也可以使用 CSV 文件指定。每项配置仅允许一个数据集范围。您最多可以指定 10,000 个项目或文件夹。
|
| 存储桶过滤条件 | 用于在数据集中包含或排除特定存储桶的过滤条件。 | 您可以使用正则表达式按存储桶名称进行过滤,也可以按存储桶位置进行过滤。 |
| 数据集的保留期限 | 数据集捕获并保留元数据和活动数据的天数,包括数据集的创建日期。对于活动数据表,您可以使用活动数据的保留期限属性来替换数据保留期限。 |
此保留期限是一个滚动窗口,最长可达 90 天。数据集每 24 小时会使用新的元数据更新一次。系统会自动删除在保留期限之外捕获的数据。例如,如果您在 2023 年 10 月 1 日创建了一个数据集,并将保留期限设置为 30 天。10 月 30 日,数据集反映的是过去 30 天的数据(10 月 1 日至 10 月 30 日)。10 月 31 日,数据集反映的是 10 月 2 日至 10 月 31 日的数据。您可以随时修改保留期限。默认情况下,保留期限适用于元数据表,如果未指定活动数据的保留期限,则也适用于活动数据表。
|
| 活动数据的保留期限 | 数据集捕获和保留活动数据的天数。如果定义了此值,则此值会替换数据集的保留期限。 |
保留期限最长可达 365 days。活动数据的保留期限适用于活动数据表。
|
| 位置 | 用于存储数据集及其关联数据的 BigQuery 位置。 |
必须是 BigQuery 支持的位置,例如 us-central1。如果您已有 BigQuery 表,建议您选择这些表的位置。
|
| 服务代理类型 | 确定读取和写入数据集配置数据的服务代理的范围。可以是配置范围服务代理,也可以是项目范围服务代理 |
项目范围服务代理可以访问和写入项目中的所有数据集配置的数据集。例如,如果您的项目中有多个数据集配置,您只需向项目范围服务代理授予所需的权限一次。这样可让该服务代理读取和写入项目内所有数据集配置的数据集。数据集配置被删除后,系统不会删除项目范围服务代理。 配置范围服务代理只能访问和写入由特定数据集配置生成的数据集。这意味着,如果您有多个数据集配置,则必须向每个配置范围服务代理授予所需的权限。数据集配置被删除后,系统会删除配置范围服务代理。 |
指定配置属性并向服务代理授予必要的权限后,将数据集关联到 BigQuery 以进行查询。
如需详细了解在创建或更新数据集配置时设置的属性,请参阅 JSON API 文档中的 DatasetConfigs 资源。
配置完成后,该服务会自动收集数据并将其注入到 Cloud Storage 拥有的 BigQuery 实例中。数据集中的数据填充时间表如下:
新添加的存储桶或对象的初始数据集加载和活动数据可能需要 24-48 小时才能在 BigQuery 中显示为关联的数据集。
活动数据通常会在活动发生后 4 小时内纳入(延迟时间有时可能会更长)。
元数据快照(针对项目、存储桶和对象)每 24 小时更新一次。
注意事项
请考虑以下数据集配置:
在启用了分层命名空间的存储桶中重命名文件夹时,该存储桶中的对象名称会更新。当关联的数据集注入这些对象快照时,这些快照会被视为新条目。
对于使用客户管理的加密密钥 (CMEK) 加密的对象,
object metadata表中不提供 CRC32C 校验和和 MD5 哈希值。数据集仅在以下 BigQuery 位置受支持:
EUUSasia-southeast1europe-west1us-central1us-east1us-east4