Conjuntos de datos de Storage Insights

En este documento, se explica cómo los conjuntos de datos de Storage Insights te ayudan a administrar tu entorno de Cloud Storage, ya que te brindan visibilidad y estadísticas sobre tus datos.

Los conjuntos de datos de Storage Insights crean un índice consultable de metadatos y actividad para tus buckets y objetos de Cloud Storage en toda tu organización, carpetas, proyectos o buckets específicos. Para consultar el índice de metadatos y actividad, deberás vincular el conjunto de datos a BigQuery. Luego, puedes usar el conjunto de datos de BigQuery vinculado para analizar, consultar y visualizar tus datos. Vincula el conjunto de datos a BigQuery para habilitar la consulta del índice de metadatos y actividad.

El conjunto de datos de Storage Insights es una función exclusiva disponible con la suscripción a Storage Intelligence. Google Cloud ofrece una prueba introductoria de 30 días de Storage Intelligence. Puedes habilitar la prueba para obtener estadísticas sobre el uso del Cloud Storage y tomar medidas. Para obtener más información sobre la prueba, consulta Prueba introductoria de 30 días de Storage Intelligence.

Descripción general

Un conjunto de datos de Storage Insights proporciona una instantánea continua de los metadatos, los datos de actividad, los errores y los eventos de todos los proyectos, buckets y objetos dentro del alcance definido. Al recopilar y, luego, indexar información de forma continua, el conjunto de datos crea una vista integral que te ayuda a comprender el estado de tus datos, supervisar tus recursos de Cloud Storage y obtener estadísticas para administrar y optimizar tu patrimonio de almacenamiento.

El conjunto de datos está disponible como un conjunto de datos vinculado de BigQuery, con un conjunto de tablas que tienen los siguientes esquemas:

Casos de uso de los conjuntos de datos de Storage Insights

Los conjuntos de datos de Storage Insights proporcionan vistas para obtener estadísticas detalladas y en toda la organización sobre tus datos. En las siguientes secciones, se describen los casos de uso de los conjuntos de datos.

Comprende tu patrimonio de almacenamiento

Puedes obtener estadísticas sobre tus datos si visualizas los metadatos de proyectos, bucket y objetos. Las vistas de metadatos te ayudan con las siguientes tareas:

  • Detectar anomalías, como datos en una región inesperada
  • Identificar oportunidades de optimización, como ubicar archivos temporales o duplicados
  • Consultar estadísticas específicas, como los objetos creados en las últimas 24 horas o el recuento total de archivos PDF
  • Profundizar en los objetos en los que deseas realizar acciones mediante la extracción de una lista de prefijos de un conjunto de objetos en función de los resultados de la consulta Para obtener información sobre cómo realizar operaciones en miles de millones de objetos sin servidores, consulta operaciones por lotes de almacenamiento.

Analiza los patrones de actividad

Con la vista de actividad del bucket, la vista de actividad del proyecto y la vista de eventos del objeto, puedes hacer lo siguiente:

  • Analizar patrones operativos y detectar buckets inactivos

  • Supervisar las operaciones en tus objetos para ver cómo cambia tu patrimonio de almacenamiento con el tiempo

  • Asignar tus proyectos, buckets y prefijos más activos

Comprende la actividad regional del bucket

La vista de actividad regional del bucket muestra campos como bytes de solicitud y respuesta, lo que te ayuda a ver las regiones que interactúan con frecuencia con tu bucket. Analiza la actividad regional del bucket para determinar si es necesario reubicar el bucket:

  • Visualiza el total de salida y entrada de un bucket en una región para identificar los buckets que podrían ser más adecuados para una clase regional en lugar de una multirregional.

  • Evalúa el tráfico total de datos dentro y entre todas las regiones.

Evalúa el estado de seguridad

Puedes usar los metadatos de bucket y objetos para identificar objetos expuestos públicamente, tipos de encriptación activos y cronogramas de vencimiento para la retención de datos. En las siguientes secciones, se describe cómo los conjuntos de datos de Storage Insights te ayudan a evaluar posibles vulnerabilidades de seguridad.

Identifica objetos de acceso público

Puedes usar los conjuntos de datos de Storage Insights para identificar objetos de acceso público. El estado de acceso público de tus objetos te ayuda a controlar tus datos de almacenamiento y mitigar los riesgos de robo de datos, ya que te permite identificar los objetos expuestos a la Internet pública.

El esquema de metadatos de objetos proporciona el estado de acceso público, una métrica calculada que ayuda a simplificar el análisis de seguridad. Para determinar el estado de acceso público de un objeto, los conjuntos de datos de Storage Insights validan todas las siguientes configuraciones:

Para ayudarte a identificar la configuración específica que otorga acceso público, los conjuntos de datos de Storage Insights incluyen información cuando un objeto es de lectura o escritura pública. En el caso de los objetos de lectura pública, esta información indica si el permiso se origina a nivel del objeto, el bucket o la carpeta administrada. En el caso de los objetos de escritura pública, proporciona detalles sobre si el acceso se otorga mediante una LCA de objeto, una LCA de bucket o una política de IAM.

Puedes consultar el estado de acceso público de los objetos con BigQuery y, luego, supervisar esos objetos con los paneles de Looker para enumerar todos los objetos de lectura o escritura pública. Para obtener más información sobre los campos de estado de acceso público, consulta securityInsights en el esquema de metadatos de objetos.

Audita las configuraciones de encriptación

Puedes usar las vistas de metadatos de bucket y objetos para auditar las configuraciones de encriptación. Estas vistas incluyen información de encriptación a nivel del bucket y del objeto, con campos como encryption en los metadatos del bucket y encryptionType en los metadatos del objeto. Puedes usar esta información para hacer lo siguiente:

  • Verificar que los buckets tengan configurada la encriptación predeterminada. Para ello, consulta encryption.defaultEncryptionType y encryption.defaultKmsKeyName.
  • Validar el cumplimiento de las políticas de aplicación de encriptación. Para ello, consulta encryptionType para ver si los objetos usan claves de encriptación administradas por Google, administradas por el cliente o proporcionadas por el cliente.
  • Identificar todos los objetos encriptados con una clave específica de Cloud Key Management Service o claves de encriptación proporcionadas por el cliente.

Supervisa las políticas de retención de datos

Puedes usar las vistas de metadatos de bucket y objetos para supervisar las políticas de retención de datos. Estas vistas incluyen campos como retentionExpirationTime en los metadatos del objeto y softDeletePolicy en los metadatos del bucket. Puedes usar estos campos para hacer lo siguiente:

  • Hacer un seguimiento de los objetos que están por vencer en la retención
  • Identificar los buckets con la eliminación no definitiva habilitada y supervisar su duración de retención.
  • Identificar objetos en un estado borrado de forma no definitiva. Para ello, consulta softDeleteTime.

Acelera la solución de problemas

La vista object_events_view contiene información sobre errores que puede ayudar a solucionar problemas. Puedes usar esta vista para inspeccionar las operaciones que generaron errores, identificar los motivos de los errores y detectar proyectos y buckets con tasas de error altas. Por ejemplo, puedes solucionar problemas de errores 429 si identificas el bucket, el proyecto y la causa raíz afectados, como la cuota de recursos o los límites de ancho de banda.

Analiza los datos y los metadatos de objetos con BigQuery

Puedes analizar los datos de tus conjuntos de datos de Storage Insights con las funciones ObjectRef de BigQuery. Por ejemplo, puedes crear consultas para ayudar a detectar información sensible en documentos o generar descripciones de imágenes.

Para analizar el contenido de los objetos, usa la ref columna de las tablas de metadatos de objetos con las ObjectRef funciones. Para obtener más detalles, consulta Analiza los datos y los metadatos de objetos con BigQuery.

Beneficios de los conjuntos de datos de Storage Insights

Los conjuntos de datos de Storage Insights proporcionan metadatos e información de actividad sobre tu patrimonio de almacenamiento en un formato consultable en BigQuery. Estos son los beneficios de usar los conjuntos de datos de Storage Insights:

  • Analiza tu patrimonio de almacenamiento dentro de un alcance personalizable para obtener estadísticas en toda la organización o especifica carpetas, proyectos o buckets para el análisis.

  • Con los datos disponibles en BigQuery, usa consultas de SQL y lenguaje natural con Gemini para analizar tus datos. Para obtener más detalles, consulta Analiza datos con la ayuda de Gemini.

  • Puedes visualizar tus datos si te conectas a un panel de Looker. Puedes usar el panel de Storage Intelligence como una plantilla que proporciona un ejemplo de las estadísticas que puedes obtener de los conjuntos de datos. Puedes usar la plantilla para conectarte a tus conjuntos de datos o agregar gráficos personalizados. Para obtener información sobre cómo usar la plantilla, consulta Instrucciones de conexión del panel de Storage Intelligence.

Cómo funcionan los conjuntos de datos de Storage Insights

Para usar los conjuntos de datos de Storage Insights, primero configura un conjunto de datos dentro de un proyecto. Especifica la organización, las carpetas o los proyectos para los que deseas hacer un seguimiento de los datos. Después de la creación, otorga los permisos necesarios al agente de servicio para generar el conjunto de datos. Luego, puedes vincular el conjunto de datos a BigQuery para realizar consultas. Una vez configurado, el servicio recopila y procesa automáticamente instantáneas diarias de metadatos de objetos, metadatos de bucket, operaciones y errores en una instancia de BigQuery propiedad de Cloud Storage. Los datos se conservan según el período de retención configurado y se almacenan de forma optimizada para minimizar los costos de almacenamiento y análisis.

En la configuración del conjunto de datos, defines qué datos se recopilan, dónde se almacenan y cómo se administran.

En la siguiente tabla, se describen las propiedades clave que debes definir cuando configuras un conjunto de datos:

Propiedad Descripción Detalles y límites
Alcance del conjunto de datos Especifica los recursos (organizaciones, proyectos o carpetas) que contienen los buckets y objetos que deseas incluir en el conjunto de datos. Puedes especificar proyectos o carpetas de forma individual o con un archivo CSV file. Cada configuración permite solo un alcance del conjunto de datos. Puedes especificar hasta 10,000 proyectos o carpetas.
Filtros de buckets Filtros que se usan para incluir o excluir buckets específicos del conjunto de datos.Puedes filtrar por nombre de bucket con expresiones regulares o filtrar por ubicación del bucket.
Período de retención del conjunto de datos Es la cantidad de días que el conjunto de datos captura y retiene los metadatos y los datos de actividad, incluida la fecha de creación del conjunto de datos. Para las tablas de datos de actividad, puedes anular el período de retención de datos con la propiedad Período de retención de datos de actividad. Este período de retención es una ventana continua y puede ser de hasta 90 días. Los conjuntos de datos se actualizan con metadatos nuevos cada 24 horas. El sistema borra automáticamente los datos capturados fuera de la ventana de retención. Por ejemplo, si creas un conjunto de datos el 1 de octubre de 2023 con una ventana de retención establecida en 30 días, el 30 de octubre, el conjunto de datos refleja los últimos 30 días de datos (del 1 al 30 de octubre). El 31 de octubre, el conjunto de datos refleja los datos del 2 al 31 de octubre. Puedes modificar la ventana de retención en cualquier momento. De forma predeterminada, el período de retención se aplica a las tablas de metadatos y también a las tablas de datos de actividad cuando no se especifica el período de retención de datos de actividad.
Período de retención de datos de actividad Es la cantidad de días que el conjunto de datos captura y retiene los datos de actividad. Cuando se define, este valor anula el Período de retención del conjunto de datos. El período de retención puede ser de hasta 365 days. El período de retención de datos de actividad se aplica a las tablas de datos de actividad.
Ubicación Es la ubicación de BigQuery que se usa para almacenar el conjunto de datos y sus datos asociados. Debe ser una ubicación compatible con BigQuery, como us-central1. Te recomendamos que selecciones la ubicación de tus tablas de BigQuery si tienes tablas de BigQuery existentes.
Tipo de agente de servicio Determina el alcance del agente de servicio que lee y escribe datos para la configuración del conjunto de datos. Puede ser un agente de servicio con alcance de configuración o un agente de servicio con alcance de proyecto. Los agentes de servicio con alcance de proyecto pueden acceder a los conjuntos de datos y escribirlos para todas las configuraciones de conjuntos de datos del proyecto. Por ejemplo, si tienes varias configuraciones de conjuntos de datos dentro de un proyecto, solo debes otorgar los permisos necesarios al agente de servicio con alcance de proyecto una vez. Esto le permite leer y escribir conjuntos de datos para todas las configuraciones de conjuntos de datos dentro del proyecto. Cuando se borra una configuración de conjunto de datos, no se borra el agente de servicio con alcance de proyecto.

Los agentes de serviciocon alcance de configuración solo pueden acceder al conjunto de datos generado por la configuración de conjunto de datos en particular y escribirlo. Esto significa que, si tienes varias configuraciones de conjuntos de datos, debes otorgar los permisos necesarios a cada agente de servicio con alcance de configuración. Cuando se borra una configuración de conjunto de datos, se borra el agente de servicio con alcance de configuración.

Después de especificar las propiedades de configuración y otorgar los permisos necesarios al agente de servicio, vincula el conjunto de datos a BigQuery para realizar consultas.

Para obtener detalles sobre las propiedades que estableces cuando creas o actualizas una configuración de conjunto de datos, consulta el recurso DatasetConfigs en la documentación de la API de JSON.

Después de la configuración, el servicio recopila y procesa automáticamente los datos en una instancia de BigQuery propiedad de Cloud Storage. El cronograma para la propagación de datos en los conjuntos de datos es el siguiente:

  • La carga inicial del conjunto de datos y los datos de actividad para los buckets o los objetos agregados recientemente pueden tardar entre 24 y 48 horas en aparecer como un conjunto de datos vinculado en BigQuery.

  • Por lo general, los datos de actividad se incluyen dentro de las cuatro horas posteriores a la actividad (la latencia puede ser más alta en ocasiones).

  • Las instantáneas de metadatos (para proyectos, buckets y objetos) se actualizan cada 24 horas.

Consideraciones

Ten en cuenta lo siguiente para las configuraciones de conjuntos de datos:

  • Cuando cambias el nombre de una carpeta en un bucket con el espacio de nombres jerárquico habilitado, se actualizan los nombres de los objetos en ese bucket. Cuando el conjunto de datos vinculado procesa estas instantáneas de objetos, se consideran entradas nuevas.

  • Las sumas de comprobación CRC32C y los hashes MD5 no están disponibles en la object metadata tabla para los objetos encriptados con claves de encriptación administradas por el cliente (CMEK).

  • Los conjuntos de datos solo se admiten en las siguientes ubicaciones de BigQuery:

    • EU
    • US
    • asia-south1
    • asia-south2
    • asia-southeast1
    • europe-west1
    • us-central1
    • us-east1
    • us-east4
  • Las siguientes limitaciones se aplican cuando se determina el estado de acceso público para los objetos con los conjuntos de datos de Storage Insights:

    • El estado de acceso público no está disponible para los objetos dentro de las carpetas administradas.

    • Los conjuntos de datos de Storage Insights no tienen en cuenta los Controles del servicio de VPC ni la configuración de filtrado de IP del bucket cuando determinan el estado de acceso público de un objeto.

¿Qué sigue?