En este documento se explica cómo pueden ayudarte los conjuntos de datos de Storage Insights a gestionar tu entorno de Cloud Storage proporcionándote visibilidad e información valiosa sobre tus datos.
Los conjuntos de datos de Estadísticas de almacenamiento crean un índice de metadatos y actividad consultable de tus segmentos y objetos de Cloud Storage en toda tu organización, carpetas, proyectos o segmentos específicos. Para consultar los metadatos y el índice de actividad, deberá vincular el conjunto de datos a BigQuery. Después, puedes usar el conjunto de datos de BigQuery vinculado para analizar, consultar y visualizar tus datos. Vincule el conjunto de datos a BigQuery para poder consultar los metadatos y el índice de actividad.
El conjunto de datos de Storage Insights es una función exclusiva disponible con la suscripción a Storage Intelligence. Google Cloud ofrece una prueba introductoria de 30 días de Storage Intelligence. Puedes habilitar la prueba para obtener información valiosa sobre tu uso de Cloud Storage y tomar medidas. Para obtener más información sobre la prueba, consulta Prueba introductoria de 30 días de Storage Intelligence.
Información general
Un conjunto de datos de Storage Insights proporciona una captura continua de metadatos, datos de actividad, errores y eventos de todos los proyectos, los contenedores y los objetos del ámbito definido. Al recoger e indexar información de forma continua, el conjunto de datos crea una vista completa que te ayuda a conocer el estado de tus datos, monitorizar tus recursos de Cloud Storage y obtener información valiosa para gestionar y optimizar tu almacenamiento.
El conjunto de datos está disponible como conjunto de datos vinculado de BigQuery, con un conjunto de tablas que tienen los siguientes esquemas:
Metadatos: una instantánea de los metadatos de proyectos, contenedores y objetos. Para obtener más información sobre el esquema de metadatos, consulta Esquema de metadatos de conjuntos de datos.
Datos de actividad: registros de mutaciones y errores de objetos, así como estadísticas de actividad agregadas de sus cubos y proyectos. Para obtener más información sobre el esquema de datos de actividad, consulta el esquema del conjunto de datos de actividad.
Errores y eventos: información sobre los eventos y errores de procesamiento de las capturas. Para obtener más información sobre el esquema de errores y eventos, consulta el esquema del conjunto de datos de eventos y errores.
Casos prácticos de los conjuntos de datos de Estadísticas de almacenamiento
Los conjuntos de datos de Estadísticas de almacenamiento proporcionan vistas para obtener estadísticas detalladas de toda la organización sobre sus datos. En las siguientes secciones se describen casos prácticos de conjuntos de datos.
Conocer tu almacenamiento
Puedes obtener información valiosa sobre tus datos consultando los metadatos de proyectos, segmentos y objetos. Las vistas de metadatos te ayudan a realizar las siguientes tareas:
- Detectar anomalías, como datos en una región inesperada.
- Identificar oportunidades de optimización, como localizar archivos temporales o duplicados.
- Consulta estadísticas específicas, como los objetos creados en las últimas 24 horas o el número total de archivos
PDF. - Desglosa los objetos sobre los que quieras actuar extrayendo una lista de prefijos de un conjunto de objetos en función de los resultados de la consulta. Para obtener información sobre cómo realizar operaciones en miles de millones de objetos de forma sin servidor, consulta operaciones por lotes de almacenamiento.
Analizar patrones de actividad
Con las vistas de actividad del contenedor, de actividad del proyecto y de eventos de objetos, puedes hacer lo siguiente:
Analiza los patrones operativos e identifica los contenedores inactivos.
Monitoriza las operaciones de tus objetos para ver cómo cambia tu almacenamiento con el tiempo.
Mapea tus proyectos, contenedores y prefijos más activos.
Interpretar la actividad de los segmentos regionales
La vista de actividad regional del contenedor muestra campos como los bytes de solicitud y respuesta, lo que te ayuda a ver las regiones que interactúan con frecuencia con tu contenedor. Analiza la actividad del segmento regional para determinar si es necesario cambiar la ubicación del segmento:
Consulte el tráfico de salida y de entrada total de un segmento de una región para identificar los segmentos que se adapten mejor a una clase regional que a una multirregional.
Evalúa el tráfico de datos total dentro de todas las regiones y entre ellas.
Acelerar la solución de problemas
Al analizar la información de los errores en la vista de eventos de objetos, puede inspeccionar las operaciones de sus objetos que han provocado errores, analizar el motivo del error y acelerar la solución del problema. También puede detectar proyectos y contenedores con el mayor número de errores para determinar las tasas de éxito y de error. Por ejemplo, puedes solucionar errores de 429 identificando el segmento, el proyecto y la causa principal afectados, como la cuota de recursos o los límites de ancho de banda.
Ventajas de los conjuntos de datos de Estadísticas de almacenamiento
Los conjuntos de datos de Estadísticas de almacenamiento proporcionan metadatos e información sobre la actividad de su almacenamiento en un formato consultable en BigQuery. Estas son las ventajas de usar conjuntos de datos de Estadísticas de almacenamiento:
Analiza tu almacenamiento en un ámbito personalizable para obtener estadísticas de toda la organización o especifica carpetas, proyectos o segmentos para el análisis.
Con los datos disponibles en BigQuery, puedes usar consultas de SQL y lenguaje natural con Gemini para analizar tus datos. Para obtener más información, consulta Analizar datos con la ayuda de Gemini.
Puede visualizar sus datos conectándose a un panel de control de Looker. Puede usar el panel de control de Storage Intelligence como plantilla que proporciona un ejemplo de las estadísticas que puede obtener de los conjuntos de datos. Puedes usar la plantilla para conectarte a tus conjuntos de datos o añadir gráficos personalizados. Para obtener información sobre cómo usar la plantilla, consulta las instrucciones de conexión del panel de control Estadísticas de almacenamiento.
Cómo funcionan los conjuntos de datos de Estadísticas de almacenamiento
Para usar conjuntos de datos de Estadísticas de almacenamiento, primero debe configurar un conjunto de datos en un proyecto. Especifica la organización, las carpetas o los proyectos de los que quieras hacer un seguimiento de los datos. Una vez creado el conjunto de datos, concede los permisos necesarios al agente de servicio para generarlo. Después, puede vincular el conjunto de datos a BigQuery para hacer consultas. Una vez configurado, el servicio recoge e ingiere automáticamente instantáneas diarias de los metadatos de los objetos, los metadatos de los contenedores, las operaciones y los errores en una instancia de BigQuery propiedad de Cloud Storage. Los datos se conservan durante el periodo configurado y se almacenan de forma optimizada para minimizar los costes de almacenamiento y análisis.
En la configuración del conjunto de datos, se define qué datos se recogen, dónde se almacenan y cómo se gestionan.
En la siguiente tabla se describen las propiedades clave que debe definir al configurar un conjunto de datos:
| Propiedad | Descripción | Detalles y límites |
|---|---|---|
| Ámbito del conjunto de datos | Especifica los recursos (organizaciones, proyectos o carpetas) que contienen los segmentos y los objetos que quieres incluir en el conjunto de datos. |
Puedes especificar proyectos o carpetas de forma individual o mediante un archivo CSV. Cada configuración solo permite un ámbito de conjunto de datos. Puedes especificar hasta 10,000 proyectos o carpetas.
|
| Filtros de segmentos | Filtros usados para incluir o excluir determinados segmentos del conjunto de datos. | Puedes filtrar por nombre de contenedor mediante expresiones regulares o por ubicación del contenedor. |
| Periodo de conservación del conjunto de datos | El número de días que el conjunto de datos captura y conserva los metadatos y los datos de actividad, incluida la fecha de creación del conjunto de datos. En el caso de las tablas de datos de actividad, puede anular el periodo de conservación de los datos mediante la propiedad Periodo de conservación de los datos de actividad. |
Este periodo de conservación es un periodo ininterrumpido y puede ser de hasta 90 días. Los conjuntos de datos se actualizan con nuevos metadatos cada 24 horas. El sistema elimina automáticamente los datos
recogidos fuera del periodo de conservación. Por ejemplo, si crea un conjunto de datos el 1 de octubre del 2023 con un periodo de conservación de 30 días. El 30 de octubre, el conjunto de datos reflejará los datos de los últimos 30 días (del 1 al 30 de octubre). El 31 de octubre, el conjunto de datos refleja los datos del 2 al 31 de octubre. Puedes modificar el periodo de conservación en cualquier momento. De forma predeterminada, el periodo de conservación se aplica a las tablas de metadatos y también a las tablas de datos de actividad cuando no se especifica el periodo de conservación de los datos de actividad.
|
| Periodo de conservación de los datos de actividad | Número de días que el conjunto de datos registra y conserva los datos de actividad. Si se define, este valor anula el Periodo de conservación del conjunto de datos. |
El periodo de conservación puede ser de hasta 365 days. El periodo de conservación de los datos de actividad se aplica a las tablas de datos de actividad.
|
| Ubicación | Ubicación de BigQuery que se usa para almacenar el conjunto de datos y los datos asociados. |
Debe ser una ubicación admitida por BigQuery, como us-central1. Te recomendamos que selecciones la ubicación de tus tablas de BigQuery si ya tienes alguna.
|
| Tipo de agente de servicio | Determina el ámbito del agente de servicio que lee y escribe datos para la configuración del conjunto de datos. Puede ser un agente de servicio con ámbito de configuración o un agente de servicio con ámbito de proyecto. |
Los agentes de servicio de ámbito de proyecto pueden acceder a conjuntos de datos y escribir en ellos
para todas las configuraciones de conjuntos de datos del proyecto. Por ejemplo, si tienes varias configuraciones de conjuntos de datos en un proyecto, solo tienes que conceder los permisos necesarios al agente de servicio del ámbito del proyecto una vez. De esta forma, puede leer y escribir conjuntos de datos para todas las configuraciones de conjuntos de datos del proyecto. Cuando se elimina una configuración de un conjunto de datos, no se elimina el agente de servicio con ámbito de proyecto. Los agentes de servicio con ámbito de configuración solo pueden acceder al conjunto de datos generado por la configuración de conjunto de datos concreta y escribir en él. Esto significa que, si tienes varias configuraciones de conjuntos de datos, debes conceder los permisos necesarios a cada agente de servicio con ámbito de configuración. Cuando se elimina una configuración de conjunto de datos, se elimina el agente de servicio con ámbito de configuración. |
Después de especificar las propiedades de configuración y conceder los permisos necesarios al agente de servicio, vincule el conjunto de datos a BigQuery para poder consultarlo.
Para obtener información sobre las propiedades que se definen al crear o actualizar una configuración de conjunto de datos, consulta el recurso DatasetConfigs en la documentación de la API JSON.
Una vez configurado, el servicio recoge e ingiere automáticamente los datos en una instancia de BigQuery propiedad de Cloud Storage. La cronología de la población de datos en los conjuntos de datos es la siguiente:
La carga inicial del conjunto de datos y los datos de actividad de los nuevos contenedores u objetos pueden tardar entre 24 y 48 horas en aparecer como un conjunto de datos vinculado en BigQuery.
Los datos de actividad suelen incluirse en un plazo de cuatro horas después de la actividad (la latencia puede ser mayor en ocasiones).
Las instantáneas de metadatos (de proyectos, grupos y objetos) se actualizan cada 24 horas.
Cuestiones importantes
Ten en cuenta lo siguiente en las configuraciones de conjuntos de datos:
Cuando cambias el nombre de una carpeta de un segmento con el espacio de nombres jerárquico habilitado, los nombres de los objetos de ese segmento se actualizan. Cuando el conjunto de datos vinculado ingiere estas instantáneas de objetos, se consideran entradas nuevas.
Las sumas de comprobación CRC32C y los hashes MD5 no están disponibles en la tabla
object metadatade los objetos cifrados con claves de cifrado gestionadas por el cliente (CMEK).Los conjuntos de datos solo se admiten en las siguientes ubicaciones de BigQuery:
EUUSasia-south1asia-south2asia-southeast1europe-west1us-central1us-east1us-east4
Siguientes pasos
- Configurar conjuntos de datos de Estadísticas de almacenamiento.
- Consulta información sobre Storage Intelligence.
- Ejecuta consultas de SQL en los conjuntos de datos de BigQuery.
- Consulta información sobre las analíticas de BigQuery.