A partir del 10 de abril de 2026, Dataplex Universal Catalog ahora se llama Knowledge Catalog. Los nombres de la API, la biblioteca cliente, la CLI y IAM no cambiaron. Para obtener más información, consulta Presentamos Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Usa estadísticas de datos para datos estructurados

En este documento, se explica cómo generar, ver y administrar estadísticas de datos para tus datos estructurados. El uso de estadísticas de datos potenciadas por IA te ayuda a acelerar la exploración de datos, ya que genera automáticamente descripciones, gráficos de relaciones y consultas en SQL a partir de los metadatos de tu tabla y conjunto de datos.

En BigQuery Studio, puedes generar estadísticas de datos para los conjuntos de datos, las tablas, las vistas, las Google Cloud tablas de BigLake y las tablas externas de BigQuery.

En Knowledge Catalog, puedes generar estadísticas de datos para las tablas de Apache Iceberg administradas por Lakehouse para Apache Iceberg de Google Cloud.

Antes de comenzar

Antes de usar las estadísticas de datos, asegúrate de haber completado los siguientes requisitos previos:

Roles obligatorios

Para obtener los permisos que necesitas para usar las estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Obtén acceso de solo lectura a las estadísticas generadas: Visualizador de datos de DataScan de Dataplex (roles/dataplex.dataScanDataViewer) en el proyecto que contiene el recurso
Leer datos de la tabla de Apache Iceberg: Visualizador de BigLake (roles/biglake.viewer) en el recurso
Publicar descripciones como aspectos: Editor del catálogo de Dataplex (roles/dataplex.catalogEditor) en el recurso
Publicar consultas como aspectos: Propietario de entradas y vínculo de entrada de Dataplex (roles/dataplex.entryOwner) en el recurso

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para usar las estadísticas de datos. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para usar las estadísticas de datos:

dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Habilitar APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:

API de Dataplex
API de BigQuery
API de Gemini for Google Cloud

Roles necesarios para habilitar las APIs

Para habilitar APIs, necesitas el permiso serviceusage.services.enable. Si creaste el proyecto, es probable que ya tengas este permiso a través del rol de propietario (roles/owner). De lo contrario, puedes obtener este permiso a través del rol de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin). Obtén más información para otorgar roles.

Habilitar las API

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .

Preparar los datos

En el caso de las Google Cloud tablas de Lakehouse, asegúrate de que tus datos estén en Cloud Storage y de haber creado una Google Cloud tabla de Lakehouse.

En el caso de las tablas del catálogo de REST de Iceberg, asegúrate de que estén registradas en el catálogo del entorno de ejecución de Lakehouse.

Genera estadísticas en BigQuery

Las estadísticas de datos para los conjuntos de datos, las tablas, las vistas, las tablas deGoogle Cloud Lakehouse y las tablas externas de BigQuery se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio.

Primero debes configurar Gemini en BigQuery y, luego, generar estadísticas. Después de generar estadísticas, puedes verlas y modificarlas en Knowledge Catalog.

Para obtener más información sobre cómo generar estadísticas en BigQuery, consulta los siguientes documentos:

Genera estadísticas para las tablas de Apache Iceberg

En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.

Ir a Búsqueda
En Filters, selecciona Lakehouse.
Selecciona la tabla de Apache Iceberg para la que deseas generar estadísticas.
Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.
Para generar estadísticas y adjuntarlas de forma permanente a la tabla como aspectos, haz clic en Generar y publicar. Esto hace que las estadísticas sean indexables, se puedan buscar y sean visibles para otros usuarios de tu organización en el Knowledge Catalog.

Para generar estadísticas y verlas temporalmente durante tu sesión actual, haz clic en Generar sin publicar. Usa esta opción si solo necesitas un análisis rápido de los datos sin guardar los metadatos en Knowledge Catalog.

Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas de datos.
Selecciona una región para generar estadísticas y haz clic en Generar.

Las estadísticas tardan unos minutos en propagarse.
Haz clic en la pestaña Estadísticas y revisa lo siguiente:
- Descripciones: Son los resúmenes generados por IA que explican el propósito de la tabla y detallan columnas específicas.
- Consultas de ejemplo: Esta es la lista de consultas en SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos.
Para ver la consulta en SQL que responde a una pregunta, haz clic en la pregunta.

Revisa las estadísticas generadas para un recurso

Para ver las estadísticas generadas de un recurso, completa los siguientes pasos:

En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.

Ir a Búsqueda
Busca el recurso para el que deseas ver estadísticas.
En los resultados de la búsqueda, haz clic en el recurso para abrir la página de detalles de la entrada.
Revisa las Descripciones y las Preguntas generadas para el recurso seleccionado.
Para ver los gráficos de relaciones y comprender cómo se conectan los datos, haz clic en la pestaña Relaciones (vista previa). Solo puedes ver las relaciones a nivel de la tabla, no a nivel del conjunto de datos.

Administra las estadísticas de la tabla

Después de generar y publicar estadísticas de tablas, puedes revisarlas y administrarlas como aspectos de metadatos en Knowledge Catalog. Las estadísticas a nivel de la tabla incluyen descripciones de tablas y columnas, y ejemplos de consultas.

Actualiza las descripciones generadas para una tabla

Solo puedes actualizar las descripciones de tablas y columnas con la API de Dataplex. Para ello, usa el método entries.patch.

Actualiza las consultas generadas para una tabla

Puedes actualizar las consultas generadas para una tabla con la consola de Google Cloud y la API de Dataplex.

Console

Busca la tabla para la que deseas actualizar las consultas generadas.
En los resultados de la búsqueda, haz clic en la tabla para abrir la página de detalles de la entrada.
En la sección Consultas, haz clic en Editar.
Actualiza la descripción de la búsqueda según sea necesario.
Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una búsqueda y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente sigue siendo Agente, es posible que se reemplace la búsqueda durante una regeneración.
Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de búsquedas para ese aspecto de los metadatos, lo que garantiza que no se pierda ningún cambio manual.

REST

Para actualizar las consultas de una tabla, usa el método entries.patch.

Actualiza las relaciones generadas para una tabla

Solo puedes actualizar las relaciones con la API de Dataplex. Para ello, usa el método entries.patch.

Administra las estadísticas del conjunto de datos

Las estadísticas a nivel del conjunto de datos se enfocan en descripciones generales y consultas en todo el conjunto de datos.

Actualiza las descripciones generadas para un conjunto de datos

Solo puedes actualizar las descripciones de los conjuntos de datos con la API de Dataplex. Para ello, usa el método entries.patch.

Actualiza las consultas generadas para un conjunto de datos

Puedes actualizar las consultas generadas para un conjunto de datos con la Google Cloud consola y la API de Dataplex.

Console

Busca el conjunto de datos para el que deseas actualizar las búsquedas generadas.
En los resultados de la búsqueda, haz clic en el conjunto de datos para abrir la página de detalles de la entrada.
En la sección Consultas, haz clic en Editar.
Actualiza la descripción según sea necesario.
Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una búsqueda y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente sigue siendo Agente, es posible que se reemplace la búsqueda durante una regeneración.
Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de búsquedas para ese aspecto de los metadatos, lo que garantiza que no se pierda ningún cambio manual.

REST

Para actualizar las consultas de un conjunto de datos, usa el método entries.patch.

Actualiza los vínculos de entrada generados para un conjunto de datos

Las relaciones que descubren las estadísticas de datos se almacenan como vínculos de entrada entre las entradas de la tabla. Estos vínculos incluyen un aspecto schema-join que describe cómo se conectan las tablas.

Para editar estas relaciones o proporcionar anulaciones manuales, debes usar la API de Dataplex.

Comportamiento de actualización de los vínculos de entrada

Cuando administres relaciones con la API, es importante que comprendas cómo las actualizaciones manuales de la API interactúan con los análisis automatizados en segundo plano para que no sobrescribas datos por accidente.

Actualizaciones manuales (comportamiento a nivel de la API): La API de UpdateEntryLink usa el método PATCH para realizar el reemplazo a nivel del aspecto:
- Reemplazo completo del aspecto: Si incluyes el aspecto schema-join en tu solicitud de actualización, Knowledge Catalog reemplaza todo el aspecto existente por el nuevo que proporcionas.
- No se realiza la combinación automática: La API no combina automáticamente las entradas nuevas en la lista interna de joins. Si envías una carga útil que contiene solo una unión, se quitarán todas las uniones existentes anteriormente dentro de ese aspecto.
Advertencia: Para agregar una relación nueva y conservar las existentes con la API, primero debes recuperar el aspecto schema-join actual e incluir todas las uniones existentes en el cuerpo de la solicitud de actualización.
Análisis automatizados (comportamiento a nivel del sistema): Los análisis automatizados, como las estadísticas de datos, realizan una lógica de combinación especializada antes de llamar a la API para garantizar que los metadatos de alta certeza se conserven según su fuente:
- Prioridad de la fuente: Si varias fuentes identifican la misma relación, Knowledge Catalog las prioriza en el siguiente orden:
  1. USER (Ediciones manuales)
  2. TABLE_CONSTRAINTS
  3. QUERY_HISTORY
  4. AGENT (sugerencias de LLM)
- Actualización del LLM: Las relaciones derivadas de la fuente AGENT son dinámicas. Si un análisis posterior ya no recomienda la relación, se quitará.

Actualiza los vínculos de entrada

Para ver y modificar los vínculos de entrada, completa los siguientes pasos:

Identifica el vínculo de entrada.

Antes de actualizar una relación, busca su nombre de recurso enumerando todos los vínculos de entrada que involucran una entrada de tabla específica:
```
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
```
Reemplaza lo siguiente:
- PROJECT_ID: Es el ID de tu proyecto de Google Cloud.
- LOCATION: Es la región en la que se activa tu análisis de datos.
- TABLE_ENTRY_NAME: Es el nombre completo del recurso de la entrada de la tabla de BigQuery (por ejemplo, bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table).

Actualiza el vínculo de entrada.

Para modificar el aspecto schema-join del vínculo de entrada segmentado, usa el método PATCH:

gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
-d '{
  "aspects": {
    "dataplex-types.global.schema-join": {
      "data": {
        "joins": [
          {
            "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
            "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
            "type": "JOIN",
            "inferenceSource": "USER"
          }
        ],
        "userManaged": false
      }
    }
  }
}'

Reemplaza lo siguiente:

ENTRYLINK_ID: Es el ID del vínculo de entrada recuperado en el paso de identificación anterior.
DATASET_ID: ID del conjunto de datos de BigQuery
SOURCE_TABLE: El nombre de la tabla de origen
SOURCE_FIELD: Es el nombre de la columna que se usa para la unión en la tabla de origen.
TARGET_TABLE: El nombre de la tabla de destino
TARGET_FIELD: Es el nombre de la columna que se usa para la unión en la tabla de destino.

¿Qué sigue?

Obtén más información sobre las estadísticas de datos estructurados.
Obtén más información para usar el análisis de descubrimiento para datos no estructurados.
Obtén más información para usar el perfil de datos para datos no estructurados.

Usa estadísticas de datos para datos estructurados Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antes de comenzar

Roles obligatorios

Permisos necesarios

Habilitar APIs

Preparar los datos

Genera estadísticas en BigQuery

Genera estadísticas para las tablas de Apache Iceberg

Revisa las estadísticas generadas para un recurso

Administra las estadísticas de la tabla

Actualiza las descripciones generadas para una tabla

Actualiza las consultas generadas para una tabla

Console

REST

Actualiza las relaciones generadas para una tabla

Administra las estadísticas del conjunto de datos

Actualiza las descripciones generadas para un conjunto de datos

Actualiza las consultas generadas para un conjunto de datos

Console

REST

Actualiza los vínculos de entrada generados para un conjunto de datos

Comportamiento de actualización de los vínculos de entrada

Actualiza los vínculos de entrada

¿Qué sigue?

Usa estadísticas de datos para datos estructurados