A partir del 10 de abril de 2026, Dataplex Universal Catalog ahora se llama Knowledge Catalog. Los nombres de la API, la biblioteca cliente, la CLI y IAM no cambiaron. Para obtener más información, consulta Presentamos Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Acerca de las estadísticas de datos para los datos estructurados

Las estadísticas de datos de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) generan automáticamente descripciones, gráficos de relaciones y consultas en SQL a partir de los metadatos de tu tabla y conjunto de datos. Esta información te ayuda a comprender rápidamente la estructura, el contenido y las relaciones de los datos sin una configuración manual extensa. Para investigar más, puedes hacer preguntas adicionales en el lienzo de datos.

Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema de inicio en frío de cómo comenzar a escribir consultas. El problema puede implicar incertidumbres sobre la estructura de datos y los patrones clave en los datos. La función de estadísticas de datos de Knowledge Catalog ofrece una forma automatizada de explorar y comprender tus datos. Esto te ayuda a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

Descripción general

Las estadísticas de datos usan Gemini para analizar tus metadatos y generar lo siguiente:

Descripciones: Resúmenes generados por IA que explican el propósito del conjunto de datos, la estructura de la tabla y los detalles de columnas específicas
Consultas de ejemplo: Consultas en SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos o tabla
Gráficos de relaciones: Visualizaciones que muestran las conexiones y dependencias entre diferentes tablas dentro de tu conjunto de datos

Recursos admitidos

Las estadísticas de datos están disponibles para los siguientes tipos de datos estructurados:

Tablas, vistas y conjuntos de datos de BigQuery
Tablas de Lakehouse de Google Cloud (incluido Apache Iceberg)
Tablas externas
Tablas de Iceberg REST Catalog

Ejemplo de una ejecución de estadística

Las estadísticas de datos generan automáticamente consultas en lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla.

Considera una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo	Tipo
CustomerID	`STRING`
Género	`STRING`
Permanencia	`INT64`
InternetService	`STRING`
StreamingTV	`STRING`
OnlineBackup	`STRING`
Contrato	`STRING`
TechSupport	`STRING`
PaymentMethod	`STRING`
MonthlyCharges	`FLOAT`
Deserción	`BOOLEAN`

Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:

Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.

SELECT
  CustomerID,
  Contract,
  Tenure
FROM
  agentville_datasets.telco_churn
WHERE
  OnlineBackup = 'Yes'
  AND TechSupport = 'Yes'
  AND StreamingTV = 'Yes'
  AND Tenure > 50;

Identifica qué servicio de Internet tiene los clientes más desertores.

SELECT
  InternetService,
  COUNT(DISTINCT CustomerID) AS total_customers
FROM
  agentville_datasets.telco_churn
WHERE
  Churn = TRUE
GROUP BY
  InternetService
ORDER BY
  total_customers DESC
LIMIT 1;

Identifica las tasas de deserción por segmento entre los clientes valiosos.

SELECT
  Contract,
  InternetService,
  Gender,
  PaymentMethod,
  COUNT(DISTINCT CustomerID) AS total_customers,
  SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
  (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
  * 100 AS churn_rate
FROM
  agentville_datasets.telco_churn
WHERE
  MonthlyCharges > 100
GROUP BY
  Contract,
  InternetService,
  Gender,
  PaymentMethod;

Modos para generar estadísticas de datos

Cuando se generan estadísticas de datos, Knowledge Catalog proporciona dos modos:

Modo	Descripción	Uso
Generar y publicar	Conserva las estadísticas de datos generadas en Knowledge Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, se realizan las siguientes acciones: Almacena descripciones de tablas y columnas en Knowledge Catalog. Captura las preguntas y consultas sugeridas como aspectos reutilizables. Hace que las estadísticas publicadas sean accesibles para todos los usuarios que tengan el acceso adecuado a Knowledge Catalog, lo que garantiza el conocimiento organizacional compartido. Te permite editar y guardar descripciones directamente en Knowledge Catalog.	Usa este modo para la documentación de datos en toda la empresa que sea persistente y reutilizable, o cuando crees flujos de trabajo de gobernanza basados en catálogos.
Generar sin publicar	Crea estadísticas de datos, como descripciones, preguntas en lenguaje natural, y consultas en SQL, a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog.	Usa este modo para la exploración rápida y ad hoc para evitar desordenar el catálogo.

Modo

Descripción

Uso

Generar y publicar

Conserva las estadísticas de datos generadas en Knowledge Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, se realizan las siguientes acciones:

Almacena descripciones de tablas y columnas en Knowledge Catalog.
Captura las preguntas y consultas sugeridas como aspectos reutilizables.
Hace que las estadísticas publicadas sean accesibles para todos los usuarios que tengan el acceso adecuado a Knowledge Catalog, lo que garantiza el conocimiento organizacional compartido.
Te permite editar y guardar descripciones directamente en Knowledge Catalog.

Usa este modo para la documentación de datos en toda la empresa que sea persistente y reutilizable, o cuando crees flujos de trabajo de gobernanza basados en catálogos.

Generar sin publicar

Crea estadísticas de datos, como descripciones, preguntas en lenguaje natural, y consultas en SQL, a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog.

Usa este modo para la exploración rápida y ad hoc para evitar desordenar el catálogo.

Precios

Para obtener detalles sobre los precios de esta función, consulta Descripción general de los precios de Gemini en BigQuery.

Ubicaciones

Puedes usar estadísticas de datos en todas las ubicaciones de BigQuery. Para obtener información sobre dónde Gemini en BigQuery procesa tus datos, consulta Dónde Gemini en BigQuery procesa tus datos.

Limitaciones

Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
Las estadísticas de datos no admiten tipos de columna Geo ni JSON.
Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, vuelve a generar estadísticas en BigQuery Studio.

¿Qué sigue?

Aprende a generar estadísticas en BigQuery.
Aprende a generar un análisis de perfil de datos.
Aprende a escribir consultas con la asistencia de Gemini en BigQuery.