En este documento, se explica cómo generar, ver y administrar estadísticas de datos para tus datos estructurados. El uso de estadísticas de datos potenciadas por IA te ayuda a acelerar la exploración de datos, ya que genera automáticamente descripciones, gráficos de relaciones y consultas de SQL a partir de los metadatos de tus tablas y conjuntos de datos.
En BigQuery Studio, puedes generar estadísticas de datos para conjuntos de datos, tablas, vistas, tablas de Lakehouse y tablas externas de BigQuery. Google Cloud
En Knowledge Catalog, puedes generar estadísticas de datos para tablas del catálogo de REST de Iceberg de Lakehouse.
Antes de comenzar
Antes de usar las estadísticas de datos, asegúrate de haber completado los siguientes requisitos previos:
Roles obligatorios
Para obtener los permisos que necesitas para usar las estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Obtener acceso de solo lectura a las estadísticas generadas:
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) en el proyecto que contiene el recurso -
Leer datos de la tabla del catálogo de REST de Iceberg:
Visualizador de BigLake (
roles/biglake.viewer) en el recurso -
Publicar descripciones como aspectos:
Editor de Dataplex Catalog (
roles/dataplex.catalogEditor) en el recurso -
Publicar consultas como aspectos:
Propietario de entradas y vínculo de entrada de Dataplex (
roles/dataplex.entryOwner) en el recurso
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para usar las estadísticas de datos. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para usar las estadísticas de datos:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
También puedes obtener estos permisos con roles personalizados o otros roles predefinidos.
Habilita las APIs
Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:
- API de Dataplex
- API de BigQuery
- API de Gemini for Google Cloud
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar
roles.
Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un Google Cloud proyecto.
Preparar los datos
En el caso de las tablas de Google Cloud Lakehouse, asegúrate de que tus datos estén en Cloud Storage y de haber creado una tabla de Google Cloud Lakehouse.
En el caso de las tablas del catálogo de REST de Iceberg, asegúrate de que tus tablas estén registradas en el catálogo de tiempo de ejecución de Lakehouse.
Genera estadísticas en BigQuery
Las estadísticas de datos para conjuntos de datos, tablas, vistas, Google Cloud tablas de Lakehouse y tablas externas de BigQuery se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio.
Primero debes configurar Gemini en BigQuery, luego generar estadísticas. Después de generar estadísticas, puedes verlas y modificarlas en Knowledge Catalog.
Para obtener más información sobre cómo generar estadísticas en BigQuery, consulta los siguientes documentos:
- Descripción general de las estadísticas de datos
- Genera estadísticas de tablas
- Genera estadísticas de conjuntos de datos
Genera estadísticas para tablas del catálogo de REST de Iceberg
En la Google Cloud consola de, ve a la página Búsqueda de Knowledge Catalog.
En Filtros, selecciona Lakehouse.
Selecciona la tabla del catálogo de REST de Iceberg para la que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.
Para generar estadísticas y adjuntarlas de forma permanente a la tabla como aspectos, haz clic en Generar y publicar. Esto hace que las estadísticas se puedan indexar, buscar y sean visibles para otros usuarios de tu organización en Knowledge Catalog.
Para generar estadísticas y verlas de forma temporal durante la sesión actual, haz clic en Generar sin publicar. Usa esta opción si solo necesitas un análisis rápido de los datos sin guardar los metadatos en Knowledge Catalog.
Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas de datos.
Selecciona una región para generar estadísticas y haz clic en Generar.
Las estadísticas tardan unos minutos en propagarse.
Haz clic en la pestaña Estadísticas y revisa lo siguiente:
- Descripciones: Son los resúmenes generados por IA que explican el propósito de la tabla y detallan columnas específicas.
- Consultas de muestra: Es la lista de consultas de SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos.
Para ver la consulta en SQL que responde a una pregunta, haz clic en la pregunta.
Revisa las estadísticas generadas para un recurso
Para ver las estadísticas generadas para un recurso, completa los siguientes pasos:
En la Google Cloud consola de, ve a la página Búsqueda de Knowledge Catalog.
Busca el recurso para el que deseas ver estadísticas.
En los resultados de la búsqueda, haz clic en el recurso para abrir la página de detalles de la entrada.
Revisa las Descripciones y las Consultas generadas para el recurso seleccionado.
Para ver los gráficos de relaciones y comprender cómo se conectan los puntos de datos, haz clic en la pestaña Relaciones (vista previa). Solo puedes ver las relaciones a nivel de la tabla, no a nivel del conjunto de datos.
Administra las estadísticas de tablas
Después de generar y publicar estadísticas de tablas, puedes revisarlas y administrarlas como aspectos de metadatos en Knowledge Catalog. Las estadísticas a nivel de la tabla incluyen descripciones de tablas y columnas, y consultas de muestra.
Actualiza las descripciones generadas para una tabla
Solo puedes actualizar las descripciones de tablas y columnas con la API de Dataplex. Para ello, usa el entries.patch.
Actualiza las consultas generadas para una tabla
Puedes actualizar las consultas generadas para una tabla con la Google Cloud consola y la API de Dataplex.
Console
Busca la tabla para la que deseas actualizar las consultas generadas.
En los resultados de la búsqueda, haz clic en la tabla para abrir la página de detalles de la entrada.
En la sección Consultas, haz clic en Editar.
Actualiza la descripción de la consulta según sea necesario.
Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una consulta y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente permanece como Agente, es posible que la consulta se reemplace durante una regeneración.
Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de consultas para ese aspecto de metadatos, lo que garantiza que no se pierda ningún cambio manual.
REST
Para actualizar las consultas de una tabla, usa el entries.patch.
Actualiza las relaciones generadas para una tabla
Solo puedes actualizar las relaciones con la API de Dataplex. Para ello, usa el método entries.patch.
Administra las estadísticas de conjuntos de datos
Las estadísticas a nivel del conjunto de datos se centran en descripciones de alto nivel y consultas en todo el conjunto de datos.
Actualiza las descripciones generadas para un conjunto de datos
Solo puedes actualizar las descripciones del conjunto de datos con la API de Dataplex. Para ello, usa el entries.patch.
Actualiza las consultas generadas para un conjunto de datos
Puedes actualizar las consultas generadas para un conjunto de datos con la Google Cloud consola y la API de Dataplex.
Console
Busca el conjunto de datos para el que deseas actualizar las consultas generadas.
En los resultados de la búsqueda, haz clic en el conjunto de datos para abrir la página de detalles de la entrada.
En la sección Consultas, haz clic en Editar.
Actualiza la descripción según sea necesario.
Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una consulta y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente permanece como Agente, es posible que la consulta se reemplace durante una regeneración.
Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de consultas para ese aspecto de metadatos, lo que garantiza que no se pierda ningún cambio manual.
REST
Para actualizar las consultas de un conjunto de datos, usa el entries.patch.
Actualiza los vínculos de entrada generados para un conjunto de datos
Las relaciones descubiertas por las estadísticas de datos se almacenan como
vínculos de entrada entre las entradas de la tabla.
Estos vínculos incluyen un aspecto schema-join que describe cómo se conectan las tablas.
Para editar estas relaciones o proporcionar anulaciones manuales, debes usar la API de Dataplex.
Comportamiento de actualización de los vínculos de entrada
Cuando administras relaciones con la API, es importante comprender cómo interactúan las actualizaciones manuales de la API con los análisis automatizados en segundo plano para que no sobrescribas datos de forma accidental.
Actualizaciones manuales (comportamiento a nivel de la API): La API de
UpdateEntryLinkusa el métodoPATCHpara realizar el reemplazo a nivel del aspecto:Reemplazo completo del aspecto: Si incluyes el aspecto
schema-joinen tu solicitud de actualización, Knowledge Catalog reemplaza todo el aspecto existente por el nuevo que proporcionas.Sin combinación automática: La API no combina automáticamente las entradas nuevas en la lista interna
joins. Si envías una carga útil que contiene solo una unión, se quitarán todas las uniones existentes anteriormente dentro de ese aspecto.
Análisis automatizados (comportamiento a nivel del sistema): Los análisis automatizados, como las estadísticas de datos, realizan una lógica de combinación especializada antes de llamar a la API para garantizar que se conserven los metadatos de alta certeza según su fuente:
Prioridad de la fuente: Si varias fuentes identifican la misma relación, Knowledge Catalog las prioriza en el siguiente orden:
USER(ediciones manuales)TABLE_CONSTRAINTSQUERY_HISTORYAGENT(sugerencias de LLM)
Actualización de LLM: Las relaciones derivadas de la fuente
AGENTson dinámicas. Si un análisis posterior ya no recomienda la relación, se quita.
Actualiza los vínculos de entrada
Para ver y modificar los vínculos de entrada, completa los siguientes pasos:
Identifica el vínculo de entrada.
Antes de que puedas actualizar una relación, busca su nombre de recurso enumerando todos los vínculos de entrada que involucran una entrada de tabla específica:
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""Reemplaza lo siguiente:
- PROJECT_ID: El ID de tu Google Cloud proyecto
- LOCATION: La región en la que se activa tu análisis de datos
- TABLE_ENTRY_NAME: El nombre completo del recurso de
la entrada de la tabla de BigQuery (por ejemplo,
bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
Actualiza el vínculo de entrada.
Para modificar el aspecto
schema-joindel vínculo de entrada de destino, usa el métodoPATCH:gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \ -d '{ "aspects": { "dataplex-types.global.schema-join": { "data": { "joins": [ { "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] }, "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] }, "type": "JOIN", "inferenceSource": "USER" } ], "userManaged": false } } } }'Reemplaza lo siguiente:
- ENTRYLINK_ID: El ID del vínculo de entrada recuperado en el paso de identificación anterior
- DATASET_ID: El ID de tu conjunto de datos de BigQuery
- SOURCE_TABLE: El nombre de la tabla de origen
- SOURCE_FIELD: El nombre de la columna que se usa para la unión en la tabla de origen
- TARGET_TABLE: El nombre de la tabla de destino
- TARGET_FIELD: El nombre de la columna que se usa para la unión en la tabla de destino
¿Qué sigue?
Obtén más información sobre las estadísticas de datos para datos estructurados.
Obtén información para generar estadísticas de datos no estructurados.