En este documento, se explica cómo generar, ver y administrar estadísticas de datos para tus datos estructurados. El uso de estadísticas de datos potenciadas por IA te ayuda a acelerar la exploración de datos, ya que genera automáticamente descripciones, gráficos de relaciones y consultas en SQL a partir de los metadatos de tu tabla y conjunto de datos.
En BigQuery Studio, puedes generar estadísticas de datos para conjuntos de datos, tablas, vistas, tablas de BigLake y tablas externas de BigQuery.
En Knowledge Catalog, puedes generar estadísticas de datos para las tablas de BigLake y del catálogo REST de Iceberg.
Antes de comenzar
Antes de usar las estadísticas de datos, asegúrate de haber completado los siguientes requisitos previos:
Roles obligatorios
Para obtener los permisos que necesitas para usar las estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Obtén acceso de solo lectura a las estadísticas generadas:
Visualizador de datos de DataScan de Dataplex (
roles/dataplex.dataScanDataViewer) en el proyecto que contiene el recurso -
Leer datos de la tabla del catálogo de REST de Iceberg:
Visualizador de BigLake (
roles/biglake.viewer) en el recurso -
Publicar descripciones como aspectos:
Editor del catálogo de Dataplex (
roles/dataplex.catalogEditor) en el recurso -
Publicar consultas como aspectos:
Propietario de entradas y vínculo de entrada de Dataplex (
roles/dataplex.entryOwner) en el recurso
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para usar las estadísticas de datos. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para usar las estadísticas de datos:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.
Habilita las APIs
Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:
- API de Dataplex
- API de BigQuery
- API de Gemini for Google Cloud.
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.
Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .
Preparar los datos
En el caso de las tablas de BigLake, asegúrate de que tus datos estén en Cloud Storage y de que se haya creado una tabla de BigLake.
En el caso de las tablas del catálogo de REST de Iceberg, asegúrate de que estén registradas en BigLake Metastore.
Genera estadísticas en BigQuery
Las estadísticas de datos para los conjuntos de datos, las tablas, las vistas, las tablas de BigLake y las tablas externas de BigQuery se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio.
Primero debes configurar Gemini en BigQuery y, luego, generar estadísticas. Después de generar estadísticas, puedes verlas y modificarlas en el Catálogo de conocimiento.
Para obtener más información sobre cómo generar estadísticas en BigQuery, consulta los siguientes documentos:
- Descripción general de las estadísticas de datos
- Generar estadísticas de la tabla
- Genera estadísticas del conjunto de datos
Genera estadísticas para las tablas del catálogo de REST de Iceberg
En la consola de Google Cloud , ve a la página Búsqueda del Catálogo de conocimiento.
En Filtros, selecciona BigLake.
Selecciona la tabla del catálogo de Iceberg REST para la que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.
Para generar estadísticas y adjuntarlas de forma permanente a la tabla como aspectos, haz clic en Generar y publicar. Esto hace que las estadísticas sean indexables, se puedan buscar y sean visibles para otros usuarios de tu organización en el Catálogo de conocimiento.
Para generar estadísticas y verlas temporalmente durante tu sesión actual, haz clic en Generar sin publicar. Usa esta opción si solo necesitas un análisis rápido de los datos sin guardar los metadatos en Knowledge Catalog.
Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas de datos.
Selecciona una región para generar estadísticas y haz clic en Generar.
Las estadísticas tardan unos minutos en propagarse.
Haz clic en la pestaña Estadísticas y revisa lo siguiente:
- Descripciones: Son los resúmenes generados por IA que explican el propósito de la tabla y detallan columnas específicas.
- Consultas de ejemplo: Esta es la lista de consultas en SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos.
Para ver la consulta en SQL que responde una pregunta, haz clic en la pregunta.
Revisa las estadísticas generadas para un recurso
Para ver las estadísticas generadas de un recurso, completa los siguientes pasos:
En la consola de Google Cloud , ve a la página Búsqueda del Catálogo de conocimiento.
Busca el recurso para el que deseas ver estadísticas.
En los resultados de la búsqueda, haz clic en el recurso para abrir la página de detalles de la entrada.
Revisa las Descripciones y las Preguntas generadas para el recurso seleccionado.
Para ver los gráficos de relaciones y comprender cómo se conectan los datos, haz clic en la pestaña Relaciones (vista previa). Solo puedes ver las relaciones a nivel de la tabla, no a nivel del conjunto de datos.
Administra las estadísticas de la tabla
Después de generar y publicar estadísticas de tablas, puedes revisarlas y administrarlas como aspectos de metadatos en el Catálogo de conocimiento. Las estadísticas a nivel de la tabla incluyen descripciones de tablas y columnas, y ejemplos de consultas.
Actualiza las descripciones generadas para una tabla
Solo puedes actualizar las descripciones de tablas y columnas con la API de Dataplex. Para ello, usa el método entries.patch.
Actualiza las consultas generadas para una tabla
Puedes actualizar las consultas generadas para una tabla con la consola Google Cloud y la API de Dataplex.
Console
Busca la tabla para la que deseas actualizar las consultas generadas.
En los resultados de la búsqueda, haz clic en la tabla para abrir la página de detalles de la entrada.
En la sección Consultas, haz clic en Editar.
Actualiza la descripción de la consulta según sea necesario.
Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una búsqueda y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente sigue siendo Agente, es posible que se reemplace la búsqueda durante una regeneración.
Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de consultas para ese aspecto de los metadatos, lo que garantiza que no se pierda ningún cambio manual.
REST
Para actualizar las consultas de una tabla, usa el método entries.patch.
Actualiza las relaciones generadas para una tabla
Solo puedes actualizar las relaciones con la API de Dataplex. Para ello, usa el método entries.patch.
Administra las estadísticas del conjunto de datos
Las estadísticas a nivel del conjunto de datos se enfocan en descripciones generales y consultas en todo el conjunto de datos.
Actualiza las descripciones generadas para un conjunto de datos
Solo puedes actualizar las descripciones de los conjuntos de datos con la API de Dataplex. Para ello, usa el método entries.patch.
Actualiza las consultas generadas para un conjunto de datos
Puedes actualizar las consultas generadas para un conjunto de datos con la Google Cloud consola y la API de Dataplex.
Console
Busca el conjunto de datos para el que deseas actualizar las búsquedas generadas.
En los resultados de la búsqueda, haz clic en el conjunto de datos para abrir la página de detalles de la entrada.
En la sección Consultas, haz clic en Editar.
Actualiza la descripción según sea necesario.
Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una búsqueda y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente sigue siendo Agente, es posible que se reemplace la búsqueda durante una regeneración.
Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de consultas para ese aspecto de los metadatos, lo que garantiza que no se pierda ningún cambio manual.
REST
Para actualizar las consultas de un conjunto de datos, usa el método entries.patch.
¿Qué sigue?
Obtén más información sobre las estadísticas de datos estructurados.
Obtén más información para generar estadísticas a partir de datos no estructurados.