Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Configurar conjuntos de datos de Estadísticas de almacenamiento

En este documento se explica cómo configurar conjuntos de datos de Estadísticas de almacenamiento.

Antes de empezar

Antes de configurar un conjunto de datos, completa los pasos siguientes.

Obtener los roles necesarios

Para obtener los permisos que necesitas para configurar conjuntos de datos, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en tus proyectos de origen:

Para configurar un conjunto de datos, sigue estos pasos: Administración de Estadísticas de almacenamiento (roles/storageinsights.admin)
Para vincular un conjunto de datos, sigue estos pasos:
- Analista de Estadísticas de almacenamiento (roles/storageinsights.analyst)
- Administrador de BigQuery (roles/bigquery.admin)

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para configurar conjuntos de datos. Para ver los permisos exactos que se necesitan, despliega la sección Permisos necesarios:

Permisos obligatorios

Para configurar conjuntos de datos, se necesitan los siguientes permisos:

Configurar un conjunto de datos:
- storageinsights.datasetConfigs.create
- storage.buckets.getObjectInsights
Enlace al conjunto de datos de BigQuery: storageinsights.datasetConfigs.linkDataset

También puedes obtener estos permisos con roles personalizados u otros roles predefinidos.

Habilitar la API Storage Insights

Consola

Habilita la API storageinsights.googleapis.com.

Línea de comandos

Para habilitar la API Storage Insights en tu proyecto actual, ejecuta el comando gcloud services enable:

gcloud services enable storageinsights.googleapis.com

Para obtener más información sobre cómo habilitar servicios en un proyecto, consulta Habilitar e inhabilitar servicios. Google Cloud

Configurar Storage Intelligence

Comprueba que Storage Intelligence esté configurado en el proyecto, la carpeta o la organización que quieras analizar con conjuntos de datos.

Crear una configuración de conjunto de datos

Para crear una configuración de conjunto de datos, sigue estos pasos. Para obtener más información sobre los campos que puede especificar en la configuración del conjunto de datos, consulte Propiedades de configuración del conjunto de datos.

Consola

En la Google Cloud consola, ve a la página Storage Insights de Cloud Storage.

Ir a Estadísticas de almacenamiento
Haz clic en Configurar conjunto de datos.
En la sección Asigna un nombre al conjunto de datos, escribe el nombre que quieras darle. De manera opcional, introduzca una descripción del conjunto de datos. Los nombres identifican las configuraciones de los conjuntos de datos y son inmutables. El nombre puede contener hasta 128 caracteres, incluidas letras, números y guiones bajos, y debe empezar por una letra.
En la sección Define dataset scope (Definir el ámbito del conjunto de datos), haga lo siguiente:
- Selecciona una de las opciones siguientes:
  - Para obtener los metadatos de almacenamiento de todos los proyectos de la organización actual, selecciona Incluir la organización.
  - Para obtener los metadatos de almacenamiento de todos los proyectos de las carpetas seleccionadas, elija Incluir carpetas (suborganización o departamentos). Para obtener información sobre cómo obtener IDs de carpetas, consulta Ver o enumerar carpetas y proyectos. Para añadir carpetas:
    1. En el campo Carpeta 1, introduce el ID de la carpeta.
    2. Si quieres añadir varios IDs de carpeta, haz clic en + Añadir otra carpeta.
  - Para obtener los metadatos de almacenamiento de los proyectos seleccionados, selecciona Incluir proyectos proporcionando los números de proyecto. Para saber cómo encontrar los números de proyecto, consulta el artículo Buscar el nombre, el número y el ID del proyecto. Para añadir proyectos, siga estos pasos:
    1. En el campo Proyecto 1, introduce el número del proyecto.
    2. Si quieres añadir varios números de proyecto, haz clic en + Añadir otro proyecto.
  - Para añadir proyectos o carpetas en bloque, selecciona Subir una lista de proyectos o carpetas mediante un archivo CSV. El archivo CSV debe contener los números de proyecto o los IDs de carpeta que se van a incluir en el conjunto de datos. Puede especificar hasta 10.000 proyectos o carpetas en una configuración de conjunto de datos.
- Especifica si quieres incluir automáticamente los futuros contenedores en el recurso seleccionado.
- Si quiere especificar filtros en los contenedores en función de las regiones y los prefijos de los contenedores, expanda la sección Filtros (opcional). Los filtros se aplican de forma acumulativa en los segmentos.
  
  Puede incluir o excluir contenedores de regiones específicas. Por ejemplo, puedes excluir segmentos de las regiones me-central1 y me-central2. También puede incluir o excluir contenedores por prefijo. Por ejemplo, para excluir los contenedores que empiecen por my-bucket, introduzca el prefijo my-bucket*.
Haz clic en Continuar.
En la sección Seleccionar periodo de conservación, elija un periodo de conservación para los datos del conjunto de datos.
Los datos de actividad se incluyen en el conjunto de datos de forma predeterminada y heredan el periodo de conservación del conjunto de datos. Para anular el periodo de conservación del conjunto de datos, selecciona Especificar un periodo de conservación para los datos de actividad y, a continuación, el número de días que quieras conservar los datos de actividad. Para inhabilitar los datos de actividad, define el periodo de conservación en 0 días.
En la sección Seleccionar ubicación para almacenar el conjunto de datos configurado, elija una ubicación para almacenar el conjunto de datos. Por ejemplo, us-central1.
En la sección Seleccionar tipo de cuenta de servicio, elige un tipo de agente de servicio para tu conjunto de datos. Elige un agente de servicio con ámbito de configuración o con ámbito de proyecto para tu conjunto de datos.
Haz clic en Configurar.

Línea de comandos

Para crear una configuración de conjunto de datos, ejecuta el comando gcloud storage insights dataset-configs create con las marcas necesarias:
```
gcloud storage insights dataset-configs create DATASET_CONFIG_ID \
  --location=LOCATION \
  --organization=SOURCE_ORG_NUMBER \
  --retention-period-days=DATASET_RETENTION_PERIOD_DAYS \
  (SCOPE_FLAG)
```
Sustituye:
- DATASET_CONFIG_ID con el nombre de la configuración del conjunto de datos. Los nombres identifican las configuraciones de los conjuntos de datos y son inmutables. El nombre puede contener hasta 128 caracteres, incluidas letras, números y guiones bajos, y debe empezar por una letra.
- LOCATION con la ubicación para almacenar el conjunto de datos. Por ejemplo, us-central1.
- SOURCE_ORG_NUMBER por el ID de la organización a la que pertenecen los proyectos de origen. Para encontrar el ID de tu organización, consulta Obtener el ID de recurso de tu organización.
- DATASET_RETENTION_PERIOD_DAYS con el periodo de conservación de los datos del conjunto de datos.
- SCOPE_FLAG con cualquiera de las siguientes marcas que definen el ámbito de los datos que se van a recoger:
  - --enable-organization-scope: permite que el conjunto de datos recoja estadísticas de todos los segmentos de la organización.
  - --source-folders=[SOURCE_FOLDER_NUMBERS,...]: Especifica una lista de números de carpetas que se incluirán en el conjunto de datos. Para saber cómo encontrar el número de una carpeta, consulta Listar todos los proyectos y carpetas de tu jerarquía.
  - --source-folders-file=FILE_PATH: Especifica varios números de carpeta subiendo un archivo CSV a un contenedor.
  - --source-projects=[SOURCE_PROJECT_NUMBERS,...]: Especifica una lista de números de proyecto que se incluirán en el conjunto de datos. Por ejemplo, 464036093014. Para encontrar el número de tu proyecto, consulta Buscar el nombre, el número y el ID de un proyecto.
  - --source-projects-file=FILE_PATH: Especifica varios números de proyecto subiendo un archivo CSV a un contenedor.
También puedes usar las siguientes marcas adicionales para configurar el conjunto de datos:
- Usa --include-buckets=BUCKET_NAMES_OR_REGEX para incluir determinados segmentos por nombre o expresión regular. No puedes usar esta marca con --exclude-buckets.
- Usa --exclude-buckets=BUCKET_NAMES_OR_REGEX para excluir determinados contenedores por nombre o expresión regular. No puedes usar esta marca con --include-buckets.
- Usa --project=DESTINATION_PROJECT_ID para especificar un proyecto en el que almacenar la configuración del conjunto de datos y el conjunto de datos generado. Si no usas esta marca, el proyecto de destino será el proyecto activo. Para obtener más información sobre los IDs de proyecto, consulta el artículo Crea y gestiona proyectos.
- Usa --auto-add-new-buckets para incluir automáticamente los contenedores que se añadan a los proyectos de origen en el futuro.
- Usa --skip-verification para omitir las comprobaciones y los errores del proceso de verificación, que incluye comprobaciones de los permisos de IAM obligatorios. Si usas esta marca, es posible que algunos o todos los contenedores se excluyan del conjunto de datos.
- Usa --identity=IDENTITY_TYPE para especificar el ámbito del agente de servicio creado con la configuración del conjunto de datos. Los valores son IDENTITY_TYPE_PER_CONFIG y IDENTITY_TYPE_PER_PROJECT. Si no se especifica, el valor predeterminado es IDENTITY_TYPE_PER_CONFIG. Para obtener más información, consulta el artículo Tipo de agente de servicio.
- Usa --description=DESCRIPTION para añadir una descripción de la configuración del conjunto de datos.
- Usa --activity-data-retention-period-days=ACTIVITY_RETENTION_PERIOD_DAYS para especificar el periodo de conservación de los datos de actividad del conjunto de datos. De forma predeterminada, los datos de actividad se incluyen en el conjunto de datos y heredan el periodo de conservación del conjunto de datos. Para anular el periodo de conservación del conjunto de datos, especifica el número de días que quieres conservar los datos de actividad. Para excluir datos de actividad, asigna el valor 0 a ACTIVITY_RETENTION_PERIOD_DAYS.
En el siguiente ejemplo se crea una configuración de conjunto de datos llamada my-dataset en la región us-central1 para la organización con el ID 123456789, con un periodo de conservación de 30 días y un ámbito limitado a los proyectos 987654321 y 123123123:
```
gcloud storage insights dataset-configs create my-dataset \
--location=us-central1 \
--organization=123456789 \
--retention-period-days=30 \
--source-projects=987654321,123123123
```

API JSON

Tener gcloud CLI instalado e inicializado , lo que te permite generar un token de acceso para el encabezado Authorization.

Crea un archivo JSON que contenga la siguiente información:
```
{
  "sourceProjects": {
    "project_numbers": ["PROJECT_NUMBERS", ...]
  },
  "retentionPeriodDays": "RETENTION_PERIOD_DAYS",
  "activityDataRetentionPeriodDays": "ACTIVITY_DATA_RETENTION_PERIOD_DAYS",
  "identity": {
    "type": "IDENTITY_TYPE"
  }
}
```
Sustituye:
- PROJECT_NUMBERS con los números de los proyectos que quieras incluir en el conjunto de datos. Puedes especificar uno o varios proyectos. Los proyectos deben especificarse como una lista de cadenas.
  
  También puedes añadir una organización o una o varias carpetas que contengan los cubos y los objetos de los que quieras actualizar los metadatos. Para incluir carpetas u organizaciones, usa los campos sourceFolders o organizationScope. Para obtener más información, consulta la DatasetConfig referencia.
- RETENTION_PERIOD_DAYS con el número de días de datos que se van a capturar en la captura del conjunto de datos. Por ejemplo, 90.
- ACTIVITY_DATA_RETENTION_PERIOD_DAYS con el número de días de datos de actividad que se van a registrar en la instantánea del conjunto de datos. De forma predeterminada, los datos de actividad se incluyen en el conjunto de datos y heredan el periodo de conservación del conjunto de datos. Para anular el periodo de conservación del conjunto de datos, especifica el número de días que quieres conservar los datos de actividad. Para excluir datos de actividad, asigna el valor ACTIVITY_RETENTION_PERIOD_DAYS a 0.
- IDENTITY_TYPE con el tipo de cuenta de servicio que se crea junto con la configuración del conjunto de datos. Los valores son IDENTITY_TYPE_PER_CONFIG y IDENTITY_TYPE_PER_PROJECT. Para obtener más información, consulta el artículo Tipo de agente de servicio.
Para crear la configuración del conjunto de datos, usa cURL para llamar a la API JSON con una solicitud Create DatasetConfig:
```
curl -X POST --data-binary @JSON_FILE_NAME \
"https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigs?datasetConfigId=DATASET_CONFIG_ID" \
  --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
  --header "Accept: application/json" \
  --header "Content-Type: application/json"
```
Sustituye:
- JSON_FILE_NAME con la ruta al archivo JSON que has creado en el paso anterior. También puedes pasar una instancia de DatasetConfig en el cuerpo de la solicitud.
- PROJECT_ID por el ID del proyecto al que pertenecerán la configuración y el conjunto de datos.
- LOCATION con la ubicación donde residirán el conjunto de datos y su configuración. Por ejemplo, us-central1.
- DATASET_CONFIG_ID con el nombre de la configuración del conjunto de datos. Los nombres identifican las configuraciones de los conjuntos de datos y son inmutables. El nombre puede contener hasta 128 caracteres, incluidas letras, números y guiones bajos, y debe empezar por una letra.
- SERVICE_ACCOUNT con la cuenta de servicio. Por ejemplo, test-service-account@test-project.iam.gserviceaccount.com.

Para solucionar los errores de procesamiento de las copias de los registros de error_attributes_view, consulte Errores del conjunto de datos de Estadísticas de almacenamiento.

Conceder los permisos necesarios al agente de servicio

Google Cloud crea un agente de servicio con ámbito de configuración o de proyecto cuando creas una configuración de conjunto de datos. El agente de servicio sigue el formato de nomenclatura service-PROJECT_NUMBER@gcp-sa-storageinsights.iam.gserviceaccount.com y aparece en la página Gestión de identidades y accesos de la Google Cloud consola cuando seleccionas la casilla Incluir asignaciones de roles proporcionadas por Google. También puedes consultar el nombre del agente de servicio DatasetConfig mediante la API JSON.

Para que Storage Insights pueda generar y escribir conjuntos de datos, pide a tu administrador que asigne al agente de servicio el rol de servicio de recopilador de Storage Insights (roles/storage.insightsCollectorService) en la organización que contenga los proyectos de origen. Debe asignar este rol a cada agente de servicio con ámbito de configuración que se cree para cada configuración de conjunto de datos de la que quiera obtener datos. Si usas un agente de servicio con ámbito de proyecto, debes conceder este rol solo una vez al agente de servicio para leer y escribir conjuntos de datos de todas las configuraciones de conjuntos de datos del proyecto.

Para obtener instrucciones sobre cómo conceder roles en proyectos, consulta el artículo Gestionar acceso.

Vincular un conjunto de datos

Para vincular un conjunto de datos a BigQuery, siga estos pasos:

Consola

En la Google Cloud consola, ve a la página Storage Insights de Cloud Storage.

Ir a Estadísticas de almacenamiento
Haga clic en el nombre de la configuración del conjunto de datos que ha generado el conjunto de datos que quiere vincular.
En la sección Conjunto de datos vinculado de BigQuery, haga clic en Vincular conjunto de datos para vincular su conjunto de datos.

Línea de comandos

Para vincular un conjunto de datos a BigQuery, ejecute el comando gcloud storage insights dataset-configs create-link:
```
gcloud storage insights dataset-configs create-link DATASET_CONFIG_ID --location=LOCATION
```
Sustituye:
- DATASET_CONFIG_ID con el nombre de la configuración del conjunto de datos que ha generado el conjunto de datos que se va a vincular.
- LOCATION con la ubicación de tu conjunto de datos. Por ejemplo, us-central1.
También puedes especificar una ruta de configuración de conjunto de datos completa. Por ejemplo:
```
gcloud storage insights dataset-configs create-link projects/DESTINATION_PROJECT_ID/locations/LOCATION/datasetConfigs/DATASET_CONFIG_ID
```
Sustituye:
- DESTINATION_PROJECT_ID con el ID del proyecto que contiene la configuración del conjunto de datos. Para obtener más información sobre los IDs de proyecto, consulta el artículo Crea y gestiona proyectos.
- DATASET_CONFIG_ID con el nombre de la configuración del conjunto de datos que ha generado el conjunto de datos que se va a vincular.
- LOCATION con la ubicación de tu conjunto de datos y la configuración del conjunto de datos. Por ejemplo, us-central1.

API JSON

Tener gcloud CLI instalado e inicializado , lo que te permite generar un token de acceso para el encabezado Authorization.

Usa cURL para llamar a la API JSON con una solicitud linkDataset DatasetConfig:
```
curl -X POST \
  "https://storageinsights.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasetConfigsDATASET_CONFIG_ID:linkDataset?" \
    --header "Authorization: Bearer $(gcloud auth print-access-token --impersonate-service-account=SERVICE_ACCOUNT)" \
    --header "Accept: application/json" \
    --header "Content-Type: application/json"
```
Sustituye:
- JSON_FILE_NAME con la ruta al archivo JSON que has creado.
- PROJECT_ID por el ID del proyecto al que pertenece la configuración del conjunto de datos.
- LOCATION con la ubicación donde se encuentran el conjunto de datos y su configuración. Por ejemplo, us-central1.
- DATASET_CONFIG_ID con el nombre de la configuración del conjunto de datos que ha generado el conjunto de datos que se va a vincular.
- SERVICE_ACCOUNT con la cuenta de servicio. Por ejemplo, test-service-account@test-project.iam.gserviceaccount.com.

Siguientes pasos

Ver conjuntos de datos vinculados.
Consulta un conjunto de datos vinculado.
Analiza los datos almacenados con Gemini Cloud Assist.
Gestionar las configuraciones de conjuntos de datos, lo que incluye actualizarlas, verlas, enumerarlas y eliminarlas.

Configurar conjuntos de datos de Estadísticas de almacenamiento Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Antes de empezar

Obtener los roles necesarios

Permisos obligatorios

Habilitar la API Storage Insights

Consola

Línea de comandos

Configurar Storage Intelligence

Crear una configuración de conjunto de datos

Consola

Línea de comandos

API JSON

Conceder los permisos necesarios al agente de servicio

Vincular un conjunto de datos

Consola

Línea de comandos

API JSON

Siguientes pasos

Configurar conjuntos de datos de Estadísticas de almacenamiento