En este documento, se explica cómo los conjuntos de datos de Storage Insights te ayudan a administrar tu entorno de Cloud Storage, ya que proporcionan visibilidad y estadísticas sobre tus datos.
Los conjuntos de datos de Storage Insights crean un índice consultable de metadatos y actividad para tus buckets y objetos de Cloud Storage en toda tu organización, carpetas, proyectos o buckets específicos. Para consultar el índice de metadatos y actividad, deberás vincular el conjunto de datos a BigQuery. Luego, puedes usar el conjunto de datos de BigQuery vinculado para analizar, consultar y visualizar tus datos. Vincula el conjunto de datos a BigQuery para habilitar la consulta del índice de metadatos y actividad.
El conjunto de datos de Storage Insights es una función exclusiva disponible con la suscripción a Storage Intelligence. Google Cloud ofrece una prueba introductoria de 30 días de Storage Intelligence. Puedes habilitar la prueba para obtener estadísticas sobre tu uso de Cloud Storage y tomar medidas. Para obtener más información sobre la prueba, consulta Prueba introductoria de 30 días de Storage Intelligence.
Descripción general
Un conjunto de datos de Storage Insights proporciona una instantánea continua de los metadatos, los datos de actividad, los errores y los eventos de todos los proyectos, buckets y objetos dentro del alcance definido. Mediante la recopilación y la indexación continuas de información, el conjunto de datos crea una vista integral que te ayuda a comprender el estado de tus datos, supervisar tus recursos de Cloud Storage y obtener estadísticas para administrar y optimizar tu patrimonio de almacenamiento.
El conjunto de datos está disponible como un conjunto de datos vinculado de BigQuery, con un conjunto de tablas que tienen los siguientes esquemas:
Metadatos: Es una instantánea de los metadatos de proyectos, buckets y objetos. Para obtener detalles sobre el esquema de metadatos, consulta Esquema de metadatos del conjunto de datos.
Datos de actividad: Registros de mutaciones y errores para objetos, y estadísticas de actividad agregadas para tus buckets y proyectos. Para obtener detalles sobre el esquema de los datos de actividad, consulta Esquema del conjunto de datos de los datos de actividad.
Errores y eventos: Información sobre los eventos y errores del procesamiento de instantáneas. Para obtener detalles sobre el esquema de errores y eventos, consulta Esquema del conjunto de datos de eventos y errores.
Casos de uso de los conjuntos de datos de Storage Insights
Los conjuntos de datos de Storage Insights proporcionan vistas para obtener estadísticas detalladas y a nivel de toda la organización sobre tus datos. En las siguientes secciones, se describen casos de uso para los conjuntos de datos.
Comprende tu patrimonio de almacenamiento
Puedes obtener estadísticas sobre tus datos si visualizas los metadatos de proyectos, bucket y objetos. Las vistas de metadatos te ayudan con las siguientes tareas:
- Detectar anomalías, como datos en una región inesperada
- Identifica oportunidades de optimización, como la ubicación de archivos temporales o duplicados.
- Realiza consultas para obtener estadísticas específicas, como los objetos creados en las últimas 24 horas o el recuento total de archivos
PDF. - Desglosa los objetos sobre los que deseas actuar extrayendo una lista de prefijos de un conjunto de objetos en función de los resultados de la búsqueda. Para obtener información sobre cómo realizar operaciones en miles de millones de objetos sin servidores, consulta operaciones por lotes de almacenamiento.
Analiza los patrones de actividad
Con las vistas de actividad del bucket, actividad del proyecto y eventos del objeto, puedes hacer lo siguiente:
Analizar patrones operativos e identificar buckets inactivos
Supervisa las operaciones en tus objetos para ver cómo cambia tu almacenamiento con el tiempo.
Crea un mapa de tus proyectos, buckets y prefijos más activos.
Comprende la actividad de bucket regionales
La vista de actividad regional del bucket muestra campos como los bytes de solicitud y respuesta, lo que te ayuda a ver las regiones que interactúan con frecuencia con tu bucket. Analiza la actividad del bucket regional para determinar si es necesario reubicar el bucket:
Consulta el ingreso y egreso totales de un bucket en una región para identificar los buckets que podrían ser más adecuados para una clase regional en lugar de una multirregional.
Evalúa el tráfico total de datos dentro de todas las regiones y entre ellas.
Acelera la solución de problemas
Si analizas la información de errores en la vista de eventos de objetos, puedes inspeccionar las operaciones en tus objetos que generaron errores, analizar el motivo del error y acelerar la solución de problemas. También puedes detectar los proyectos y buckets con la mayor cantidad de errores para determinar las tasas de éxito y de errores. Por ejemplo, puedes solucionar problemas relacionados con errores429 identificando el bucket, el proyecto y la causa raíz afectados, como la cuota de recursos o los límites de ancho de banda.
Beneficios de los conjuntos de datos de Storage Insights
Los conjuntos de datos de Storage Insights proporcionan metadatos e información de actividad sobre tu almacenamiento en un formato consultable en BigQuery. A continuación, se indican los beneficios de usar los conjuntos de datos de Storage Insights:
Analiza tu patrimonio de almacenamiento dentro de un alcance personalizable para obtener estadísticas en toda la organización o especifica carpetas, proyectos o buckets para el análisis.
Con los datos disponibles en BigQuery, usa consultas en SQL y lenguaje natural con Gemini para analizar tus datos. Para obtener más detalles, consulta Analiza datos con la ayuda de Gemini.
Puedes visualizar tus datos conectándote a un panel de Looker. Puedes usar el panel de Storage Intelligence como plantilla que proporciona un ejemplo de las estadísticas que puedes obtener de los conjuntos de datos. Puedes usar la plantilla para conectarte a tus conjuntos de datos o agregar gráficos personalizados. Para obtener información sobre cómo usar la plantilla, consulta Instrucciones para conectar el panel de Storage Intelligence.
Cómo funcionan los conjuntos de datos de Storage Insights
Para usar los conjuntos de datos de Storage Insights, primero debes configurar un conjunto de datos en un proyecto. Especifica la organización, las carpetas o los proyectos para los que deseas hacer un seguimiento de los datos. Después de la creación, otorga los permisos necesarios al agente de servicio para generar el conjunto de datos. Luego, puedes vincular el conjunto de datos a BigQuery para realizar consultas. Una vez configurado, el servicio recopila y transfiere automáticamente instantáneas diarias de los metadatos de los objetos, los metadatos de bucket, las operaciones y los errores a una instancia de BigQuery propiedad de Cloud Storage. Los datos se conservan según el período de retención configurado y se almacenan de forma optimizada para minimizar los costos de almacenamiento y análisis.
En la configuración del conjunto de datos, defines qué datos se recopilan, dónde se almacenan y cómo se administran.
En la siguiente tabla, se describen las propiedades clave que debes definir cuando configuras un conjunto de datos:
| Propiedad | Descripción | Detalles y límites |
|---|---|---|
| Alcance del conjunto de datos | Especifica los recursos (organizaciones, proyectos o carpetas) que contienen los buckets y los objetos que deseas incluir en el conjunto de datos. |
Puedes especificar proyectos o carpetas de forma individual o con un archivo CSV. Cada configuración permite solo un alcance del conjunto de datos. Puedes especificar hasta 10,000 proyectos o carpetas.
|
| Filtros de discretización | Son los filtros que se usan para incluir o excluir buckets específicos del conjunto de datos. | Puedes filtrar por nombre de bucket con expresiones regulares o por ubicación del bucket. |
| Período de retención del conjunto de datos | Es la cantidad de días que el conjunto de datos captura y conserva los metadatos y los datos de actividad, incluida la fecha de creación del conjunto de datos. En el caso de las tablas de datos de actividad, puedes anular el período de retención de datos con la propiedad Período de retención de datos de actividad. |
Este período de retención es una ventana continua y puede durar hasta 90 días. Los conjuntos de datos se actualizan con metadatos nuevos cada 24 horas. El sistema borra automáticamente los datos
capturados fuera del período de retención. Por ejemplo, si creas un conjunto de datos el 1 de octubre de 2023 con un período de retención establecido en 30 días. El 30 de octubre, el conjunto de datos refleja los últimos 30 días de datos (del 1 al 30 de octubre). El 31 de octubre, el conjunto de datos refleja los datos del 2 al 31 de octubre. Puedes
modificar el período de retención en cualquier momento. De forma predeterminada, el período de retención se aplica a las tablas de metadatos y también a las tablas de datos de actividad cuando no se especifica el período de retención de los datos de actividad.
|
| Período de retención de los datos de actividad | Es la cantidad de días que el conjunto de datos captura y retiene los datos de actividad. Cuando se define, este valor anula el Período de retención del conjunto de datos. |
El período de retención puede ser de hasta 365 days. El período de retención de los datos de actividad se aplica a las tablas de datos de actividad.
|
| Ubicación | Es la ubicación de BigQuery que se usa para almacenar el conjunto de datos y sus datos asociados. |
Debe ser una ubicación compatible con BigQuery, como us-central1. Te recomendamos que selecciones la ubicación de tus tablas de BigQuery si ya tienes tablas de BigQuery.
|
| Tipo de agente de servicio | Determina el alcance del agente de servicio que lee y escribe datos para la configuración del conjunto de datos. Puede ser un agente de servicio con alcance de configuración o un agente de servicio con alcance de proyecto. |
Los agentes de servicio con alcance en el proyecto pueden acceder a los conjuntos de datos y escribir en ellos para todas las configuraciones de conjuntos de datos del proyecto. Por ejemplo, si tienes varias configuraciones de conjuntos de datos en un proyecto, solo necesitas otorgar los permisos requeridos al agente de servicio con alcance para el proyecto una vez. Esto le permite leer y escribir conjuntos de datos para todas las configuraciones de conjuntos de datos dentro del proyecto. Cuando se borra una configuración del conjunto de datos, no se borra la agente de servicio con alcance para el proyecto. Las cuentas de servicio con alcance para la configuración solo pueden acceder al conjunto de datos generado por la configuración del conjunto de datos en particular y escribir en él. Esto significa que, si tienes varios parámetros de configuración del conjunto de datos, debes otorgar los permisos necesarios a cada agente de servicio con alcance de configuración. Cuando se borra una configuración del conjunto de datos, se borra el agente de servicio con alcance de configuración. |
Después de especificar las propiedades de configuración y otorgar los permisos necesarios al agente de servicio, vincula el conjunto de datos a BigQuery para realizar consultas.
Para obtener detalles sobre las propiedades que configuras cuando creas o actualizas la configuración de un conjunto de datos, consulta el recurso DatasetConfigs en la documentación de la API de JSON.
Después de la configuración, el servicio recopila y procesa automáticamente los datos en una instancia de BigQuery propiedad de Cloud Storage. El cronograma para completar los datos en los conjuntos de datos es el siguiente:
Es posible que la carga inicial del conjunto de datos y los datos de actividad de los buckets o los objetos agregados recientemente tarden entre 24 y 48 horas en aparecer como un conjunto de datos vinculado en BigQuery.
Por lo general, los datos de actividad se incluyen en un plazo de cuatro horas después de la actividad (la latencia puede ser mayor en ocasiones).
Las instantáneas de metadatos (para proyectos, buckets y objetos) se actualizan cada 24 horas.
Consideraciones
Ten en cuenta lo siguiente para las configuraciones de conjuntos de datos:
Cuando cambias el nombre de una carpeta en un bucket con el espacio de nombres jerárquico habilitado, se actualizan los nombres de los objetos en ese bucket. Cuando el conjunto de datos vinculado ingiere estas instantáneas de objetos, se consideran entradas nuevas.
Las sumas de comprobación CRC32C y los hashes MD5 no están disponibles en la tabla
object metadatapara los objetos encriptados con claves de encriptación administradas por el cliente (CMEK).Los conjuntos de datos solo se admiten en las siguientes ubicaciones de BigQuery:
EUUSasia-south1asia-south2asia-southeast1europe-west1us-central1us-east1us-east4
¿Qué sigue?
- Configura los conjuntos de datos de Storage Insights.
- Obtén más información sobre Storage Intelligence.
- Ejecuta consultas de SQL en los conjuntos de datos de BigQuery.
- Obtén más información sobre los análisis de BigQuery.