Genera estadísticas del conjunto de datos
En este documento, se describe cómo generar estadísticas de conjuntos de datos para los conjuntos de datos de BigQuery. Las estadísticas del conjunto de datos te ayudan a comprender las relaciones entre las tablas de un conjunto de datos, ya que generan gráficos de relaciones y consultas entre tablas.
Las estadísticas del conjunto de datos te ayudan a acelerar la exploración de conjuntos de datos con varias tablas, ya que descubren y visualizan automáticamente las relaciones entre las tablas en un grafo, identifican las relaciones de clave primaria y clave externa, y generan consultas de muestra entre tablas. Esto es útil para comprender la estructura de los datos sin documentación, descubrir relaciones definidas por el esquema, basadas en el uso o inferidas por la IA entre las tablas, y generar consultas complejas que unen varias tablas.
Para obtener una descripción general de las estadísticas de tablas y conjuntos de datos, consulta Descripción general de las estadísticas de datos.
Antes de comenzar
Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.
Habilita las APIs
Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto: API de Dataplex, API de BigQuery y API de Gemini para Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .
Completa un análisis de perfil de datos
Para mejorar la calidad de las estadísticas, genera resultados de perfilamiento de datos para las tablas de tu conjunto de datos.
Roles obligatorios
Para obtener los permisos que necesitas para generar, administrar y recuperar estadísticas del conjunto de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Para generar, administrar y recuperar estadísticas, haz lo siguiente:
-
Editor de DataScan de Dataplex (
roles/dataplex.dataScanEditor) o Administrador de DataScan de Dataplex (roles/dataplex.dataScanAdmin) en el proyecto -
Editor de datos de BigQuery (
roles/bigquery.dataEditor) en las tablas -
Usuario de BigQuery (
roles/bigquery.user) o usuario de BigQuery Studio (roles/bigquery.studioUser) en el proyecto.
-
Editor de DataScan de Dataplex (
-
Para ver las estadísticas, haz lo siguiente:
-
Visualizador de datos de DataScan de Dataplex (
roles/dataplex.dataScanDataViewer) en el proyecto -
Visualizador de datos de BigQuery (
roles/bigquery.dataViewer) en el conjunto de datos
-
Visualizador de datos de DataScan de Dataplex (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.
Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos requeridos:
Permisos necesarios
bigquery.datasets.get: Lee los metadatos del conjunto de datosbigquery.jobs.create: crear trabajosbigquery.tables.get: Obtén metadatos de la tablabigquery.tables.getData: Obtén datos y metadatos de tablasdataplex.datascans.create: Crea un recurso de DataScandataplex.datascans.get: Lee los metadatos del recurso DataScan.dataplex.datascans.getData: Lee los resultados de la ejecución de DataScandataplex.datascans.run: Ejecuta un DataScan a pedido
Genera estadísticas del conjunto de datos
En la consola de Google Cloud , ve a BigQuery Studio.
En el panel Explorador, selecciona el proyecto y, luego, el conjunto de datos para el que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas.
Haz clic en Generar.
Si tu conjunto de datos se encuentra en una multirregión, es posible que se te solicite que selecciones una región para generar estadísticas. Selecciona una región correspondiente a la multirregión en la que se creará el análisis de estadísticas.
Las estadísticas tardan unos minutos en propagarse. La calidad de las estadísticas mejora si las tablas del conjunto de datos tienen resultados de la generación de perfiles de datos.
Después de que se generan las estadísticas, BigQuery muestra una descripción del conjunto de datos, un gráfico de relaciones, una tabla de relaciones y ejemplos de consultas entre tablas.
Cómo ver y guardar la descripción del conjunto de datos
Gemini genera una descripción en lenguaje natural del conjunto de datos, en la que se resumen los tipos de tablas que contiene y el dominio comercial que representa. Para guardar esta descripción en los metadatos del conjunto de datos, haz clic en Guardar en detalles.
Puedes editar la descripción antes de guardar los detalles.
Explora el gráfico de relaciones
El gráfico Relationships proporciona una representación visual de cómo se relacionan entre sí las tablas del conjunto de datos. Muestra las 10 tablas más conectadas como nodos, con líneas que representan las relaciones entre ellas.
- Para ver los detalles de la relación, como las columnas que unen dos tablas, coloca el cursor sobre el borde que conecta los nodos de la tabla.
- Para reorganizar el gráfico y mejorar la visibilidad, arrastra los nodos de la tabla.
Cómo usar la tabla de relaciones
En la tabla de relaciones, se enumeran las relaciones descubiertas en formato tabular. Cada fila representa una relación entre dos tablas, y muestra la tabla y la columna de origen, y la tabla y la columna de destino. La columna Fuente indica cómo se determinó la relación:
- Se infirió el LLM. Relaciones que infiere Gemini, basadas en los nombres y las descripciones de las tablas y las columnas en todo el conjunto de datos.
- Según el uso. Son las relaciones extraídas de los registros de consultas, basadas en las uniones frecuentes.
- Definido por el esquema. Son las relaciones derivadas de las asignaciones existentes de clave primaria y externas en el esquema de la tabla.
Puedes filtrar las relaciones de una tabla específica o proporcionar comentarios sobre la calidad de las relaciones detectadas. Para exportar la descripción y las relaciones del conjunto de datos generados a un archivo JSON, haz clic en Exportar a JSON.
Usa las recomendaciones de consultas
En función de las relaciones descubiertas, Gemini genera ejemplos de búsquedas. Estas son preguntas en lenguaje natural con las correspondientes consultas en SQL que unen varias tablas en el conjunto de datos.
Para ver una consulta en SQL, haz clic en una pregunta.
Para abrir la consulta en el editor de consultas de BigQuery, haz clic en Copiar en la consulta. Luego, puedes ejecutar la consulta o modificarla.
Para hacer una pregunta adicional, haz clic en Hacer otra pregunta, que abrirá un lienzo de datos sin título en el que podrás chatear con Gemini para explorar tus datos.
¿Qué sigue?
- Obtén información sobre el resumen de las estadísticas de datos.
- Aprende a generar estadísticas de tablas.
- Obtén más información sobre la generación de perfiles de datos de Dataplex Universal Catalog.