Genera estadísticas del conjunto de datos

En este documento, se describe cómo generar estadísticas de conjuntos de datos para los conjuntos de datos de BigQuery. Las estadísticas del conjunto de datos te ayudan a comprender las relaciones entre las tablas de un conjunto de datos, ya que generan gráficos de relaciones y consultas entre tablas.

Las estadísticas del conjunto de datos te ayudan a acelerar la exploración de conjuntos de datos con varias tablas, ya que descubren y visualizan automáticamente las relaciones entre las tablas en un grafo, identifican las relaciones de clave primaria y clave externa, y generan consultas de muestra entre tablas. Esto es útil para comprender la estructura de los datos sin documentación, descubrir relaciones definidas por el esquema, basadas en el uso o inferidas por la IA entre las tablas, y generar consultas complejas que unen varias tablas.

Para obtener una descripción general de las estadísticas de tablas y conjuntos de datos, consulta Descripción general de las estadísticas de datos.

Antes de comenzar

Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto: API de Dataplex, API de BigQuery y API de Gemini para Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .

Completa un análisis de perfil de datos

Para mejorar la calidad de las estadísticas, genera resultados de perfilamiento de datos para las tablas de tu conjunto de datos.

Roles obligatorios

Para obtener los permisos que necesitas para generar, administrar y recuperar estadísticas del conjunto de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

  • Para generar, administrar y recuperar estadísticas, haz lo siguiente:
    • Editor de DataScan de Dataplex (roles/dataplex.dataScanEditor) o Administrador de DataScan de Dataplex (roles/dataplex.dataScanAdmin) en el proyecto
    • Editor de datos de BigQuery (roles/bigquery.dataEditor) en las tablas
    • Usuario de BigQuery (roles/bigquery.user) o usuario de BigQuery Studio (roles/bigquery.studioUser) en el proyecto.
  • Para ver las estadísticas, haz lo siguiente:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos requeridos:

Permisos necesarios

  • bigquery.datasets.get: Lee los metadatos del conjunto de datos
  • bigquery.jobs.create: crear trabajos
  • bigquery.tables.get: Obtén metadatos de la tabla
  • bigquery.tables.getData: Obtén datos y metadatos de tablas
  • dataplex.datascans.create: Crea un recurso de DataScan
  • dataplex.datascans.get: Lee los metadatos del recurso DataScan.
  • dataplex.datascans.getData: Lee los resultados de la ejecución de DataScan
  • dataplex.datascans.run: Ejecuta un DataScan a pedido

Genera estadísticas del conjunto de datos

  1. En la consola de Google Cloud , ve a BigQuery Studio.

    Ir a BigQuery Studio

  2. En el panel Explorador, selecciona el proyecto y, luego, el conjunto de datos para el que deseas generar estadísticas.

  3. Haz clic en la pestaña Estadísticas.

  4. Haz clic en Generar.

    Si tu conjunto de datos se encuentra en una multirregión, es posible que se te solicite que selecciones una región para generar estadísticas. Selecciona una región correspondiente a la multirregión en la que se creará el análisis de estadísticas.

    Las estadísticas tardan unos minutos en propagarse. La calidad de las estadísticas mejora si las tablas del conjunto de datos tienen resultados de la generación de perfiles de datos.

Después de que se generan las estadísticas, BigQuery muestra una descripción del conjunto de datos, un gráfico de relaciones, una tabla de relaciones y ejemplos de consultas entre tablas.

Cómo ver y guardar la descripción del conjunto de datos

Gemini genera una descripción en lenguaje natural del conjunto de datos, en la que se resumen los tipos de tablas que contiene y el dominio comercial que representa. Para guardar esta descripción en los metadatos del conjunto de datos, haz clic en Guardar en detalles.

Puedes editar la descripción antes de guardar los detalles.

Explora el gráfico de relaciones

El gráfico Relationships proporciona una representación visual de cómo se relacionan entre sí las tablas del conjunto de datos. Muestra las 10 tablas más conectadas como nodos, con líneas que representan las relaciones entre ellas.

  • Para ver los detalles de la relación, como las columnas que unen dos tablas, coloca el cursor sobre el borde que conecta los nodos de la tabla.
  • Para reorganizar el gráfico y mejorar la visibilidad, arrastra los nodos de la tabla.

Cómo usar la tabla de relaciones

En la tabla de relaciones, se enumeran las relaciones descubiertas en formato tabular. Cada fila representa una relación entre dos tablas, y muestra la tabla y la columna de origen, y la tabla y la columna de destino. La columna Fuente indica cómo se determinó la relación:

  • Se infirió el LLM. Relaciones que infiere Gemini, basadas en los nombres y las descripciones de las tablas y las columnas en todo el conjunto de datos.
  • Según el uso. Son las relaciones extraídas de los registros de consultas, basadas en las uniones frecuentes.
  • Definido por el esquema. Son las relaciones derivadas de las asignaciones existentes de clave primaria y externas en el esquema de la tabla.

Puedes filtrar las relaciones de una tabla específica o proporcionar comentarios sobre la calidad de las relaciones detectadas. Para exportar la descripción y las relaciones del conjunto de datos generados a un archivo JSON, haz clic en Exportar a JSON.

Usa las recomendaciones de consultas

En función de las relaciones descubiertas, Gemini genera ejemplos de búsquedas. Estas son preguntas en lenguaje natural con las correspondientes consultas en SQL que unen varias tablas en el conjunto de datos.

  1. Para ver una consulta en SQL, haz clic en una pregunta.

  2. Para abrir la consulta en el editor de consultas de BigQuery, haz clic en Copiar en la consulta. Luego, puedes ejecutar la consulta o modificarla.

  3. Para hacer una pregunta adicional, haz clic en Hacer otra pregunta, que abrirá un lienzo de datos sin título en el que podrás chatear con Gemini para explorar tus datos.

¿Qué sigue?