Genera estadísticas del conjunto de datos

En este documento, se describe cómo generar estadísticas de conjuntos de datos para los conjuntos de datos de BigQuery. Las estadísticas del conjunto de datos te ayudan a comprender las relaciones entre las tablas de un conjunto de datos, ya que generan gráficos de relaciones y consultas entre tablas.

Las estadísticas del conjunto de datos te ayudan a acelerar la exploración de conjuntos de datos con varias tablas, ya que descubren y visualizan automáticamente las relaciones entre las tablas en un grafo, identifican las relaciones de clave primaria y clave externa, y generan consultas de muestra entre tablas. Esto es útil para comprender la estructura de los datos sin documentación, descubrir relaciones definidas por el esquema, basadas en el uso o inferidas por la IA entre las tablas, y generar consultas complejas que unen varias tablas.

Para obtener una descripción general de las estadísticas de tablas y conjuntos de datos, consulta Descripción general de las estadísticas de datos.

Modos para generar estadísticas del conjunto de datos

Cuando genera estadísticas del conjunto de datos, BigQuery proporciona dos modos:

Modo Descripción Uso
Generar y publicar

Persiste las estadísticas del conjunto de datos generadas en Knowledge Catalog como aspectos y relaciones de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, BigQuery hace lo siguiente:

  • Almacena la descripción del conjunto de datos en Knowledge Catalog.
  • Captura las preguntas y consultas sugeridas como aspectos reutilizables.
  • Captura las relaciones como metadatos en Knowledge Catalog.
  • Permite que todos los usuarios que tengan acceso adecuado a Knowledge Catalog puedan acceder a las estadísticas publicadas, lo que garantiza el conocimiento compartido de la organización.
  • Te permite editar y guardar descripciones directamente en Knowledge Catalog con la API. Puedes editar las consultas sugeridas con la consola de Google Cloud .

Usa este modo para la documentación de datos en toda la empresa que persiste y es reutilizable, o cuando compiles flujos de trabajo de administración basados en catálogos.

Generar sin publicar

Crea estadísticas del conjunto de datos, como descripciones, preguntas en lenguaje natural, relaciones y consultas en SQL a pedido. La opción Generar sin publicar no publica estadísticas en Knowledge Catalog.

Usa este modo para realizar exploraciones rápidas y ad hoc, y evitar saturar el catálogo.

Antes de comenzar

Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto: API de Dataplex, API de BigQuery y API de Gemini para Google Cloud.

Roles necesarios para habilitar las APIs

Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.

Habilitar las API

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .

Completa un análisis de perfil de datos

Para mejorar la calidad de las estadísticas, genera un análisis de perfil de datos para las tablas de tu conjunto de datos.

Roles obligatorios

Para obtener los permisos que necesitas para generar, administrar y recuperar estadísticas del conjunto de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos requeridos:

Permisos necesarios

  • bigquery.datasets.get: Lee los metadatos del conjunto de datos
  • bigquery.jobs.create: crear trabajos
  • bigquery.jobs.listAll: Enumera todos los trabajos del proyecto.
  • bigquery.tables.get: Obtén metadatos de la tabla
  • bigquery.tables.getData: Obtén datos y metadatos de tablas
  • dataplex.datascans.create: Crea un recurso de DataScan
  • dataplex.datascans.get: Lee los metadatos del recurso DataScan.
  • dataplex.datascans.getData: Lee los resultados de la ejecución de DataScan
  • dataplex.datascans.run: Ejecuta un DataScan a pedido
  • dataplex.entryGroups.useSchemaJoinEntryLink: Usa vínculos de entrada schema-join
  • dataplex.entryGroups.useSchemaJoinAspect: Usa aspectos de unión de esquemas
  • dataplex.entryLinks.create: crear vínculos de entrada
  • dataplex.entryLinks.update: Actualiza los vínculos de entrada
  • dataplex.entryLinks.delete: Borra vínculos de entrada
  • dataplex.entries.link: Entradas de vínculos
  • dataplex.entries.update: Actualiza entradas
  • dataplex.entryGroups.useDescriptionsAspect: Usa aspectos de la descripción
  • dataplex.entryGroups.useQueriesAspect: Usa aspectos de la búsqueda

Genera estadísticas del conjunto de datos

Console

  1. En la consola de Google Cloud , ve a BigQuery Studio.

    Ir a BigQuery Studio

  2. En el panel Explorador, selecciona el proyecto y, luego, el conjunto de datos para el que deseas generar estadísticas.

  3. Haz clic en la pestaña Estadísticas.

  4. Para generar estadísticas y publicarlas en Knowledge Catalog, haz clic en Generar y publicar.

    Para generar estadísticas sin publicarlas en Knowledge Catalog, haz clic en Generar sin publicar.

    Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas del conjunto de datos.

  5. Si tu conjunto de datos se encuentra en una multirregión, es posible que se te solicite que selecciones una región para generar estadísticas. Selecciona una región correspondiente a la multirregión en la que se creará el análisis de estadísticas.

    Las estadísticas tardan unos minutos en propagarse. La calidad de las estadísticas mejora si las tablas del conjunto de datos tienen resultados de la generación de perfiles de datos.

Después de que se generan las estadísticas, BigQuery muestra una descripción del conjunto de datos, un gráfico de relaciones, una tabla de relaciones y ejemplos de consultas entre tablas.

REST

Para generar estadísticas de forma programática, usa la API de DataScans de Knowledge Catalog. Para hacerlo, sigue los pasos que se indican a continuación:

  1. Genera un análisis de datos de documentación de datos para el conjunto de datos de BigQuery
  2. Verifica el estado del análisis de la documentación de datos
  3. Verifica la publicación en Knowledge Catalog

Genera un análisis de datos de documentación de datos para el conjunto de datos de BigQuery

  1. Crea un análisis de datos de documentación de datos con el método dataScans.create. De manera opcional, puedes publicar estas estadísticas en Knowledge Catalog si estableces el parámetro catalog_publishing_enabled en true.

    Por ejemplo:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID de tu proyecto de Google Clouden el que reside el conjunto de datos.
    • LOCATION: Es la región en la que se ejecuta el análisis de datos.
    • DATASCAN_ID: Es un nombre único que proporcionas para este análisis.
    • DATASET_ID: Es el ID del conjunto de datos de BigQuery que se analiza.
  2. Inicia el trabajo de análisis de documentación de datos con el método dataScans.run.

    Por ejemplo:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    Esta solicitud devuelve un ID de trabajo único junto con el estado inicial.

Verifica el estado del análisis de documentación de datos

Verifica que se haya completado la ejecución del trabajo de análisis con el método dataScans.get. Para recuperar los resultados completos, incluidas las estadísticas y el estado de publicación, configura el parámetro view como FULL.

Usa el ID del trabajo para recuperar su estado. Por ejemplo:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

El trabajo se completa cuando el estado es SUCCEEDED o FAILURE.

Una respuesta correcta del trabajo contiene las estadísticas generadas en el campo dataDocumentationResult.

Verifica la publicación en Knowledge Catalog

Si catalog_publishing_enabled se establece en true, las estadísticas se publican en Knowledge Catalog de forma asíncrona después de que se completa el trabajo de análisis de datos. Para verificar que las estadísticas se hayan conservado, usa la API de Dataplex para inspeccionar los aspectos del conjunto de datos.

Si bien las estadísticas se generan a partir del análisis de datos a nivel del conjunto de datos, las entradas de vínculo resultantes se almacenan entre las tablas que conectan. Para verificar estas relaciones, usa el método lookupEntryLinks para recuperar los vínculos de entrada asociados con una entrada de tabla específica.

Para recuperar los metadatos de tu conjunto de datos de BigQuery, usa el método entries.get. Para incluir todos los aspectos, establece el parámetro view en FULL. Por ejemplo:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Reemplaza lo siguiente:

  • PROJECT_ID: Es el ID de tu proyecto de Google Clouden el que se configuró DataScan.
  • LOCATION: Es la región en la que reside el grupo de entradas.
  • DATASET_PROJECT_ID: Es el ID del proyecto Google Clouden el que reside el conjunto de datos de BigQuery.
  • DATASET: El ID del conjunto de datos de BigQuery

Si la publicación en Knowledge Catalog se realiza correctamente, se adjuntan los siguientes aspectos al conjunto de datos de BigQuery:

  • Descripciones: Contiene descripciones del conjunto de datos generadas por IA
  • Consultas: Contiene consultas SQL relevantes relacionadas con el conjunto de datos.
  • Relaciones: Se conservan como vínculos de entrada entre las tablas presentes en el conjunto de datos.

Cómo ver y guardar la descripción del conjunto de datos

Gemini genera una descripción en lenguaje natural del conjunto de datos, en la que se resumen los tipos de tablas que contiene y el dominio empresarial que representa. Para guardar esta descripción en los metadatos del conjunto de datos, haz clic en Guardar en detalles.

Puedes editar la descripción antes de guardar los detalles.

Explora el gráfico de relaciones

El gráfico Relationships proporciona una representación visual de cómo se relacionan entre sí las tablas del conjunto de datos. Muestra las 10 tablas más conectadas como nodos, con líneas que representan las relaciones entre ellas.

  • Para ver los detalles de la relación, como las columnas que unen dos tablas, coloca el cursor sobre el borde que conecta los nodos de la tabla.
  • Para reorganizar el gráfico y mejorar la visibilidad, arrastra los nodos de la tabla.

Cómo usar la tabla de relaciones

La tabla de relaciones enumera las relaciones descubiertas en formato tabular. Cada fila representa una relación entre dos tablas, y muestra la tabla y la columna de origen, y la tabla y la columna de destino. La columna Fuente indica cómo se determinó la relación:

  • Se infirió el LLM. Relaciones que infiere Gemini, basadas en los nombres y las descripciones de las tablas y las columnas en todo el conjunto de datos.
  • Según el uso. Son las relaciones extraídas de los registros de consultas, basadas en las uniones frecuentes.
  • Definido por el esquema. Son las relaciones derivadas de las asignaciones existentes de clave primaria y externas en el esquema de la tabla.

Puedes filtrar las relaciones de una tabla específica o proporcionar comentarios sobre la calidad de las relaciones detectadas. Para exportar la descripción y las relaciones del conjunto de datos generados a un archivo JSON, haz clic en Exportar a JSON.

Usa las recomendaciones de consultas

En función de las relaciones descubiertas, Gemini genera ejemplos de búsquedas. Estas son preguntas en lenguaje natural con las consultas de SQL correspondientes que unen varias tablas en el conjunto de datos.

  1. Para ver una consulta en SQL, haz clic en una pregunta.

  2. Para abrir la consulta en el editor de consultas de BigQuery, haz clic en Copiar en la consulta. Luego, puedes ejecutar la consulta o modificarla.

  3. Para hacer una pregunta adicional, haz clic en Hacer otra pregunta, lo que abrirá un lienzo de datos sin título en el que podrás chatear con Gemini para explorar tus datos.

Administra las estadísticas generadas

Después de generar estadísticas para un conjunto de datos, puedes administrarlas, actualizarlas o borrarlas en Knowledge Catalog. Para obtener más información, consulta cómo administrar estadísticas del conjunto de datos.

¿Qué sigue?