Genera estadísticas del conjunto de datos
En este documento, se describe cómo generar estadísticas de conjuntos de datos para los conjuntos de datos de BigQuery. Las estadísticas del conjunto de datos te ayudan a comprender las relaciones entre las tablas de un conjunto de datos, ya que generan gráficos de relaciones y consultas entre tablas.
Las estadísticas del conjunto de datos te ayudan a acelerar la exploración de conjuntos de datos con varias tablas, ya que descubren y visualizan automáticamente las relaciones entre las tablas en un grafo, identifican las relaciones de clave primaria y clave externa, y generan consultas de muestra entre tablas. Esto es útil para comprender la estructura de los datos sin documentación, descubrir relaciones definidas por el esquema, basadas en el uso o inferidas por la IA entre las tablas, y generar consultas complejas que unen varias tablas.
Para obtener una descripción general de las estadísticas de tablas y conjuntos de datos, consulta Descripción general de las estadísticas de datos.
Modos para generar estadísticas del conjunto de datos
Cuando genera estadísticas del conjunto de datos, BigQuery proporciona dos modos:
| Modo | Descripción | Uso |
|---|---|---|
| Generar y publicar |
Persiste las estadísticas del conjunto de datos generadas en Knowledge Catalog como aspectos y relaciones de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, BigQuery hace lo siguiente:
|
Usa este modo para la documentación de datos en toda la empresa que persiste y es reutilizable, o cuando compiles flujos de trabajo de administración basados en catálogos. |
| Generar sin publicar |
Crea estadísticas del conjunto de datos, como descripciones, preguntas en lenguaje natural, relaciones y consultas en SQL a pedido. La opción Generar sin publicar no publica estadísticas en Knowledge Catalog. |
Usa este modo para realizar exploraciones rápidas y ad hoc, y evitar saturar el catálogo. |
Antes de comenzar
Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.
Habilita las APIs
Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto: API de Dataplex, API de BigQuery y API de Gemini para Google Cloud.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.
Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .
Completa un análisis de perfil de datos
Para mejorar la calidad de las estadísticas, genera un análisis de perfil de datos para las tablas de tu conjunto de datos.
Roles obligatorios
Para obtener los permisos que necesitas para generar, administrar y recuperar estadísticas del conjunto de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Para generar, administrar y recuperar estadísticas, haz lo siguiente:
- Editor de DataScan de Dataplex (
roles/dataplex.dataScanEditor) o Administrador de DataScan de Dataplex (roles/dataplex.dataScanAdmin) en el proyecto - Editor de datos de BigQuery (
roles/bigquery.dataEditor) en las tablas - Usuario de BigQuery (
roles/bigquery.user) o usuario de BigQuery Studio (roles/bigquery.studioUser) en el proyecto - Visualizador de recursos de BigQuery (
roles/bigquery.resourceViewer) en el proyecto
- Editor de DataScan de Dataplex (
-
Sigue estos pasos para ver las estadísticas:
- Visualizador de datos de DataScan de Dataplex (
roles/dataplex.dataScanDataViewer) en el proyecto - Visualizador de datos de BigQuery (
roles/bigquery.dataViewer) en el conjunto de datos
- Visualizador de datos de DataScan de Dataplex (
-
Para publicar estadísticas en Knowledge Catalog, debes tener el rol de propietario de entrada y vínculo de entrada de Dataplex (
roles/dataplex.entryOwner) en el grupo de entradas.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos requeridos:
Permisos necesarios
bigquery.datasets.get: Lee los metadatos del conjunto de datosbigquery.jobs.create: crear trabajosbigquery.jobs.listAll: Enumera todos los trabajos del proyecto.bigquery.tables.get: Obtén metadatos de la tablabigquery.tables.getData: Obtén datos y metadatos de tablasdataplex.datascans.create: Crea un recurso de DataScandataplex.datascans.get: Lee los metadatos del recurso DataScan.dataplex.datascans.getData: Lee los resultados de la ejecución de DataScandataplex.datascans.run: Ejecuta un DataScan a pedidodataplex.entryGroups.useSchemaJoinEntryLink: Usa vínculos de entradaschema-joindataplex.entryGroups.useSchemaJoinAspect: Usa aspectos de unión de esquemasdataplex.entryLinks.create: crear vínculos de entradadataplex.entryLinks.update: Actualiza los vínculos de entradadataplex.entryLinks.delete: Borra vínculos de entradadataplex.entries.link: Entradas de vínculosdataplex.entries.update: Actualiza entradasdataplex.entryGroups.useDescriptionsAspect: Usa aspectos de la descripcióndataplex.entryGroups.useQueriesAspect: Usa aspectos de la búsqueda
Genera estadísticas del conjunto de datos
Console
En la consola de Google Cloud , ve a BigQuery Studio.
En el panel Explorador, selecciona el proyecto y, luego, el conjunto de datos para el que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas.
Para generar estadísticas y publicarlas en Knowledge Catalog, haz clic en Generar y publicar.
Para generar estadísticas sin publicarlas en Knowledge Catalog, haz clic en Generar sin publicar.
Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas del conjunto de datos.
Si tu conjunto de datos se encuentra en una multirregión, es posible que se te solicite que selecciones una región para generar estadísticas. Selecciona una región correspondiente a la multirregión en la que se creará el análisis de estadísticas.
Las estadísticas tardan unos minutos en propagarse. La calidad de las estadísticas mejora si las tablas del conjunto de datos tienen resultados de la generación de perfiles de datos.
Después de que se generan las estadísticas, BigQuery muestra una descripción del conjunto de datos, un gráfico de relaciones, una tabla de relaciones y ejemplos de consultas entre tablas.
REST
Para generar estadísticas de forma programática, usa la API de DataScans de Knowledge Catalog. Para hacerlo, sigue los pasos que se indican a continuación:
- Genera un análisis de datos de documentación de datos para el conjunto de datos de BigQuery
- Verifica el estado del análisis de la documentación de datos
- Verifica la publicación en Knowledge Catalog
Genera un análisis de datos de documentación de datos para el conjunto de datos de BigQuery
Crea un análisis de datos de documentación de datos con el método
dataScans.create. De manera opcional, puedes publicar estas estadísticas en Knowledge Catalog si estableces el parámetrocatalog_publishing_enabledentrue.Por ejemplo:
alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"' gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "catalog_publishing_enabled": true } }'Reemplaza lo siguiente:
- PROJECT_ID: Es el ID de tu proyecto de Google Clouden el que reside el conjunto de datos.
- LOCATION: Es la región en la que se ejecuta el análisis de datos.
- DATASCAN_ID: Es un nombre único que proporcionas para este análisis.
- DATASET_ID: Es el ID del conjunto de datos de BigQuery que se analiza.
Inicia el trabajo de análisis de documentación de datos con el método
dataScans.run.Por ejemplo:
gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans/DATASCAN_ID:runEsta solicitud devuelve un ID de trabajo único junto con el estado inicial.
Verifica el estado del análisis de documentación de datos
Verifica que se haya completado la ejecución del trabajo de análisis con el método dataScans.get.
Para recuperar los resultados completos, incluidas las estadísticas y el estado de publicación, configura el parámetro view como FULL.
Usa el ID del trabajo para recuperar su estado. Por ejemplo:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL
El trabajo se completa cuando el estado es SUCCEEDED o FAILURE.
Una respuesta correcta del trabajo contiene las estadísticas generadas en el campo dataDocumentationResult.
Verifica la publicación en Knowledge Catalog
Si catalog_publishing_enabled se establece en true, las estadísticas se publican en Knowledge Catalog de forma asíncrona después de que se completa el trabajo de análisis de datos. Para verificar que las estadísticas se hayan conservado, usa la API de Dataplex para inspeccionar los aspectos del conjunto de datos.
Si bien las estadísticas se generan a partir del análisis de datos a nivel del conjunto de datos, las entradas de vínculo resultantes se almacenan entre las tablas que conectan. Para verificar estas relaciones, usa el método lookupEntryLinks para recuperar los vínculos de entrada asociados con una entrada de tabla específica.
Para recuperar los metadatos de tu conjunto de datos de BigQuery, usa el método entries.get.
Para incluir todos los aspectos, establece el parámetro view en FULL. Por ejemplo:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL
Reemplaza lo siguiente:
- PROJECT_ID: Es el ID de tu proyecto de Google Clouden el que se configuró DataScan.
- LOCATION: Es la región en la que reside el grupo de entradas.
- DATASET_PROJECT_ID: Es el ID del proyecto Google Clouden el que reside el conjunto de datos de BigQuery.
- DATASET: El ID del conjunto de datos de BigQuery
Si la publicación en Knowledge Catalog se realiza correctamente, se adjuntan los siguientes aspectos al conjunto de datos de BigQuery:
- Descripciones: Contiene descripciones del conjunto de datos generadas por IA
- Consultas: Contiene consultas SQL relevantes relacionadas con el conjunto de datos.
- Relaciones: Se conservan como vínculos de entrada entre las tablas presentes en el conjunto de datos.
Cómo ver y guardar la descripción del conjunto de datos
Gemini genera una descripción en lenguaje natural del conjunto de datos, en la que se resumen los tipos de tablas que contiene y el dominio empresarial que representa. Para guardar esta descripción en los metadatos del conjunto de datos, haz clic en Guardar en detalles.
Puedes editar la descripción antes de guardar los detalles.
Explora el gráfico de relaciones
El gráfico Relationships proporciona una representación visual de cómo se relacionan entre sí las tablas del conjunto de datos. Muestra las 10 tablas más conectadas como nodos, con líneas que representan las relaciones entre ellas.
- Para ver los detalles de la relación, como las columnas que unen dos tablas, coloca el cursor sobre el borde que conecta los nodos de la tabla.
- Para reorganizar el gráfico y mejorar la visibilidad, arrastra los nodos de la tabla.
Cómo usar la tabla de relaciones
La tabla de relaciones enumera las relaciones descubiertas en formato tabular. Cada fila representa una relación entre dos tablas, y muestra la tabla y la columna de origen, y la tabla y la columna de destino. La columna Fuente indica cómo se determinó la relación:
- Se infirió el LLM. Relaciones que infiere Gemini, basadas en los nombres y las descripciones de las tablas y las columnas en todo el conjunto de datos.
- Según el uso. Son las relaciones extraídas de los registros de consultas, basadas en las uniones frecuentes.
- Definido por el esquema. Son las relaciones derivadas de las asignaciones existentes de clave primaria y externas en el esquema de la tabla.
Puedes filtrar las relaciones de una tabla específica o proporcionar comentarios sobre la calidad de las relaciones detectadas. Para exportar la descripción y las relaciones del conjunto de datos generados a un archivo JSON, haz clic en Exportar a JSON.
Usa las recomendaciones de consultas
En función de las relaciones descubiertas, Gemini genera ejemplos de búsquedas. Estas son preguntas en lenguaje natural con las consultas de SQL correspondientes que unen varias tablas en el conjunto de datos.
Para ver una consulta en SQL, haz clic en una pregunta.
Para abrir la consulta en el editor de consultas de BigQuery, haz clic en Copiar en la consulta. Luego, puedes ejecutar la consulta o modificarla.
Para hacer una pregunta adicional, haz clic en Hacer otra pregunta, lo que abrirá un lienzo de datos sin título en el que podrás chatear con Gemini para explorar tus datos.
Administra las estadísticas generadas
Después de generar estadísticas para un conjunto de datos, puedes administrarlas, actualizarlas o borrarlas en Knowledge Catalog. Para obtener más información, consulta cómo administrar estadísticas del conjunto de datos.
¿Qué sigue?
- Obtén información sobre el resumen de las estadísticas de datos.
- Aprende a generar estadísticas de tablas.
- Obtén más información sobre la generación de perfiles de datos de Knowledge Catalog.