Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Genera estadísticas de conjuntos de datos

En este documento, se describe cómo generar estadísticas de conjuntos de datos para conjuntos de datos de BigQuery. Las estadísticas de conjuntos de datos te ayudan a comprender las relaciones entre las tablas de un conjunto de datos mediante la generación de gráficos de relaciones y consultas entre tablas.

Las estadísticas de conjuntos de datos te ayudan a acelerar la exploración de conjuntos de datos con varias tablas, ya que descubren y visualizan automáticamente las relaciones entre las tablas en un gráfico, identifican las relaciones de clave primaria y clave externa, y generan consultas de ejemplo entre tablas. Esto es útil para comprender la estructura de los datos sin documentación, descubrir relaciones definidas por el esquema, basadas en el uso o inferidas por IA entre las tablas, y generar consultas complejas que unan varias tablas.

Para obtener una descripción general de las estadísticas de tablas y conjuntos de datos, consulta Descripción general de las estadísticas de datos.

Modos para generar estadísticas de conjuntos de datos

Cuando se generan estadísticas de conjuntos de datos, BigQuery proporciona dos modos:

Modo	Descripción	Uso
Generar y publicar	Conserva las estadísticas de conjuntos de datos generadas en Knowledge Catalog como aspectos y relaciones de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, BigQuery hace lo siguiente: Almacena la descripción del conjunto de datos en Knowledge Catalog. Captura las preguntas y consultas sugeridas como aspectos reutilizables. Captura las relaciones como metadatos en Knowledge Catalog. Hace que las estadísticas publicadas sean accesibles para todos los usuarios que tengan el acceso adecuado a Knowledge Catalog, lo que garantiza el conocimiento organizacional compartido. Te permite editar y guardar descripciones directamente en Knowledge Catalog con la API. Puedes editar las consultas sugeridas con la Google Cloud consola de.	Usa este modo para la documentación de datos en toda la empresa que sea persistente y reutilizable, o cuando compiles flujos de trabajo de administración basados en catálogos.
Generar sin publicar	Crea estadísticas de conjuntos de datos, como descripciones, preguntas en lenguaje natural preguntas, relaciones y consultas en SQL, a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog.	Usa este modo para una exploración rápida y ad hoc para evitar desordenar el catálogo.

Modo

Descripción

Uso

Generar y publicar

Conserva las estadísticas de conjuntos de datos generadas en Knowledge Catalog como aspectos y relaciones de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, BigQuery hace lo siguiente:

Almacena la descripción del conjunto de datos en Knowledge Catalog.
Captura las preguntas y consultas sugeridas como aspectos reutilizables.
Captura las relaciones como metadatos en Knowledge Catalog.
Hace que las estadísticas publicadas sean accesibles para todos los usuarios que tengan el acceso adecuado a Knowledge Catalog, lo que garantiza el conocimiento organizacional compartido.
Te permite editar y guardar descripciones directamente en Knowledge Catalog con la API. Puedes editar las consultas sugeridas con la Google Cloud consola de.

Usa este modo para la documentación de datos en toda la empresa que sea persistente y reutilizable, o cuando compiles flujos de trabajo de administración basados en catálogos.

Generar sin publicar

Crea estadísticas de conjuntos de datos, como descripciones, preguntas en lenguaje natural preguntas, relaciones y consultas en SQL, a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog.

Usa este modo para una exploración rápida y ad hoc para evitar desordenar el catálogo.

Antes de comenzar

Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto: API de Dataplex, API de BigQuery y API de Gemini para Google Cloud.

Roles necesarios para habilitar las APIs

Para habilitar las APIs, necesitas el permiso serviceusage.services.enable. Si creaste el proyecto, es probable que ya tengas este permiso a través del rol de propietario (roles/owner). De lo contrario, puedes obtener este permiso a través del rol de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin). Obtén información para otorgar roles.

Habilitar las API

Para obtener más información para habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un Google Cloud proyecto.

Completa un análisis de perfil de datos

Para mejorar la calidad de las estadísticas, genera un análisis de perfil de datos para las tablas de tu conjunto de datos.

Roles obligatorios

Para obtener los permisos que necesitas para generar, administrar y recuperar estadísticas de conjuntos de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para generar, administrar y recuperar estadísticas:
- Editor de DataScan de Dataplex (roles/dataplex.dataScanEditor) o Administrador de DataScan de Dataplex (roles/dataplex.dataScanAdmin) en el proyecto
- Editor de datos de BigQuery (roles/bigquery.dataEditor) en las tablas
- Usuario de BigQuery (roles/bigquery.user) o Usuario de BigQuery Studio (roles/bigquery.studioUser) en el proyecto
- Visualizador de recursos de BigQuery (roles/bigquery.resourceViewer) en el proyecto
Para ver estadísticas:
- Visualizador de datos de DataScan de Dataplex (roles/dataplex.dataScanDataViewer) en el proyecto
- Visualizador de datos de BigQuery (roles/bigquery.dataViewer) en el conjunto de datos
Para publicar estadísticas en Knowledge Catalog: Propietario de entrada y EntryLink de Dataplex (roles/dataplex.entryOwner) en el grupo de entradas

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.

Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos necesarios:

Permisos necesarios

bigquery.datasets.get: Lee los metadatos del conjunto de datos.
bigquery.jobs.create: Crea trabajos.
bigquery.jobs.listAll: Enumera todos los trabajos del proyecto.
bigquery.tables.get: Obtén los metadatos de la tabla.
bigquery.tables.getData: Obtén los datos y los metadatos de la tabla.
dataplex.datascans.create: Crea el recurso DataScan.
dataplex.datascans.get: Lee los metadatos del recurso DataScan.
dataplex.datascans.getData: Lee los resultados de la ejecución de DataScan.
dataplex.datascans.run: Ejecuta DataScan a pedido.
dataplex.entryGroups.useSchemaJoinEntryLink: Usa vínculos de entrada schema-join.
dataplex.entryGroups.useSchemaJoinAspect: Usa aspectos de unión de esquemas.
dataplex.entryLinks.create: Crea vínculos de entrada.
dataplex.entryLinks.update: Actualiza los vínculos de entrada.
dataplex.entryLinks.delete: Borra los vínculos de entrada.
dataplex.entries.link: Vincula entradas.
dataplex.entries.update: Actualiza las entradas.
dataplex.entryGroups.useDescriptionsAspect: Usa aspectos de descripción.
dataplex.entryGroups.useQueriesAspect: Usa aspectos de consulta.

Genera estadísticas de conjuntos de datos

Console

En la Google Cloud consola de, ve a BigQuery Studio.

Ir a BigQuery Studio
En el panel Explorador , selecciona el proyecto y, luego, el conjunto de datos para el que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas.
Para generar estadísticas y publicarlas en Knowledge Catalog, haz clic en Generar y publicar.

Para generar estadísticas sin publicarlas en Knowledge Catalog, haz clic en Generar sin publicar.

Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas de conjuntos de datos.
Si tu conjunto de datos está en una multirregión, es posible que se te solicite que selecciones una región para generar estadísticas. Selecciona una región correspondiente a la multirregión en la que se creará el análisis de estadísticas.

Las estadísticas tardan unos minutos en completarse. La calidad de las estadísticas mejora si las tablas del conjunto de datos tienen resultados de creación de perfiles de datos.

Después de que se generan las estadísticas, BigQuery muestra una descripción del conjunto de datos, un gráfico de relaciones, una tabla de relaciones y consultas de ejemplo entre tablas.

REST

Para generar estadísticas de forma programática, usa la API de DataScans de Knowledge Catalog. Para hacerlo, sigue los pasos que se indican a continuación:

Genera un análisis de datos de documentación de datos para el conjunto de datos de BigQuery.
Verifica el estado del análisis de datos de documentación de datos.
Verifica la publicación en Knowledge Catalog.

Genera un análisis de datos de documentación de datos para el conjunto de datos de BigQuery

Crea un análisis de datos de documentación de datos con el dataScans.create método. De manera opcional, puedes publicar estas estadísticas en Knowledge Catalog si configuras el parámetro catalog_publishing_enabled como true.

Por ejemplo:
```
alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
gcurl -X POST \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
dataScans?dataScanId=DATASCAN_ID \
-d '{
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
  },
  "executionSpec": {
    "trigger": { "onDemand": {} }
  },
  "type": "DATA_DOCUMENTATION",
  "dataDocumentationSpec": {
    "catalog_publishing_enabled": true
  }
}'
```
Reemplaza lo siguiente:
- PROJECT_ID: Es el ID de tu Google Cloud proyecto en el que reside el conjunto de datos.
- LOCATION: Es la región en la que se ejecuta el análisis de datos .
- DATASCAN_ID: Es un nombre único que proporcionas para este análisis.
- DATASET_ID: Es el ID del conjunto de datos de BigQuery que se analiza.
Inicia el trabajo de análisis de datos de documentación de datos con el dataScans.run método.

Por ejemplo:
```
gcurl -X POST \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
dataScans/DATASCAN_ID:run
```
Esta solicitud muestra un ID de trabajo único junto con el estado inicial.

Verifica el estado del análisis de datos de documentación de datos

Verifica la finalización de la ejecución del trabajo de análisis con el dataScans.get método. Para recuperar los resultados completos, incluidas las estadísticas y el estado de publicación, configura el parámetro view como FULL.

Usa el ID del trabajo para obtener su estado. Por ejemplo:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

El trabajo se completa cuando el estado es SUCCEEDED o FAILURE.

Una respuesta de trabajo exitosa contiene las estadísticas generadas en el campo dataDocumentationResult.

Verifica la publicación en Knowledge Catalog

Si catalog_publishing_enabled se establece en true, las estadísticas se publican en Knowledge Catalog de forma asíncrona después de que se completa el trabajo de análisis de datos. Para verificar que las estadísticas se conservaron, usa la API de Dataplex para inspeccionar los aspectos del conjunto de datos.

Si bien las estadísticas se generan a partir del análisis de datos a nivel del conjunto de datos, los vínculos de entrada resultantes se almacenan entre las tablas que conectan. Para verificar estas relaciones, usa el lookupEntryLinks método para recuperar los vínculos de entrada asociados con una entrada de tabla específica.

Para recuperar los metadatos de tu conjunto de datos de BigQuery, usa el entries.get método. Para incluir todos los aspectos, configura el parámetro view como FULL. Por ejemplo:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Reemplaza lo siguiente:

PROJECT_ID: Es el ID de tu Google Cloud proyecto en el que se configuró DataScan.
LOCATION: Es la región en la que reside el grupo de entradas.
DATASET_PROJECT_ID: Es el ID del Google Cloud proyecto en el que reside el conjunto de datos de BigQuery.
DATASET: Es el ID del conjunto de datos de BigQuery.

Si la publicación en Knowledge Catalog se realiza correctamente, los siguientes aspectos se adjuntan al conjunto de datos de BigQuery:

Descripciones: Contiene descripciones del conjunto de datos generadas por IA.
Consultas: Contiene consultas en SQL pertinentes relacionadas con el conjunto de datos.
Relaciones: Se conservan como vínculos de entrada entre las tablas presentes en el conjunto de datos.

Visualiza y guarda la descripción del conjunto de datos

Gemini genera una descripción en lenguaje natural del conjunto de datos, en la que se resumen los tipos de tablas que contiene y el dominio empresarial que representa. Para guardar esta descripción en los metadatos del conjunto de datos, haz clic en Guardar en detalles.

Puedes editar la descripción antes de guardar los detalles.

Explora el gráfico de relaciones

El gráfico de Relaciones proporciona una representación visual de cómo se relacionan las tablas del conjunto de datos entre sí. Muestra las 10 tablas más conectadas como nodos, con líneas que representan las relaciones entre ellas.

Para ver los detalles de la relación, como las columnas que unen dos tablas, coloca el cursor sobre el borde que conecta los nodos de la tabla.
Para reorganizar el gráfico y mejorar la visibilidad, arrastra los nodos de la tabla.

Usa la tabla de relaciones

La tabla de relaciones enumera las relaciones descubiertas en formato tabular. Cada fila representa una relación entre dos tablas, en la que se muestran la tabla y la columna de origen, y la tabla y la columna de destino. La columna Origen indica cómo se determinó la relación:

Inferencia de LLM. Relaciones inferidas por Gemini, basadas en los nombres y las descripciones de las tablas y las columnas en todo el conjunto de datos.
Según el uso. Relaciones extraídas de los registros de consultas, basadas en uniones frecuentes.
Definidas por el esquema. Relaciones derivadas de las asignaciones de clave primaria y clave externa existentes en el esquema de la tabla.

Puedes filtrar las relaciones de una tabla específica o proporcionar comentarios sobre la calidad de las relaciones detectadas. Para exportar la descripción y las relaciones del conjunto de datos generadas a un archivo JSON, haz clic en Exportar a JSON.

Usa recomendaciones de consultas

Según las relaciones descubiertas, Gemini genera consultas de ejemplo. Estas son preguntas en lenguaje natural con las consultas en SQL correspondientes que unen varias tablas en el conjunto de datos.

Para ver una consulta en SQL, haz clic en una pregunta.
Para abrir la consulta en el editor de consultas de BigQuery, haz clic en Copiar a la consulta. Luego, puedes ejecutar la consulta o modificarla.
Para hacer una pregunta adicional, haz clic en Hacer otra pregunta, que abre un lienzo de datos sin título en el que puedes chatear con Gemini para explorar tus datos.

Administra las estadísticas generadas

Después de generar estadísticas para un conjunto de datos, puedes administrarlas, actualizarlas o borrarlas en Knowledge Catalog. Para obtener más información, consulta Administra las estadísticas de conjuntos de datos.

¿Qué sigue?

Obtén información sobre la descripción general de las estadísticas de datos.
Aprende a generar estadísticas de tablas.
Obtén más información sobre la creación de perfiles de datos de Knowledge Catalog.