Las estadísticas de datos de Knowledge Catalog (anteriormente, Dataplex Universal Catalog) generan automáticamente descripciones, gráficos de relaciones y consultas SQL a partir de los metadatos de tus tablas y conjuntos de datos. Esta información te ayuda a comprender rápidamente la estructura, el contenido y las relaciones de los datos sin una configuración manual extensa. Para investigar más a fondo, puedes hacer preguntas adicionales en el lienzo de datos.
Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema de inicio en frío de cómo comenzar a escribir consultas. El problema puede implicar incertidumbres sobre la estructura de datos y los patrones clave en los datos. La función de estadísticas de datos de Knowledge Catalog ofrece una forma automatizada de explorar y comprender tus datos. Esto te ayuda a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
¿Cómo funcionan las estadísticas de datos?
Las estadísticas de datos usan Gemini para analizar tus metadatos y generar lo siguiente:
Descripciones: Resúmenes generados por IA que explican el propósito del conjunto de datos, la estructura de la tabla y los detalles de columnas específicas.
Consultas de ejemplo: Son consultas en SQL personalizadas y diseñadas específicamente para el esquema y el contenido de tu conjunto de datos o tabla.
Gráficos de relaciones: Son visualizaciones que muestran las conexiones y las dependencias entre las diferentes tablas de tu conjunto de datos.
Recursos admitidos
Las estadísticas de datos están disponibles para los siguientes tipos de datos estructurados:
- Tablas, vistas y conjuntos de datos de BigQuery
- Tablas de Google Cloud Lakehouse (incluido Apache Iceberg)
- Tablas externas
- Tablas del catálogo de REST de Iceberg
Ejemplo de una ejecución de estadística
Las estadísticas de datos generan automáticamente consultas en lenguaje natural y sus equivalentes en SQL según los metadatos de una tabla.
Considera una tabla llamada telco_churn con los siguientes metadatos:
| Nombre del campo | Tipo |
|---|---|
| CustomerID | STRING |
| Género | STRING |
| Permanencia | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contrato | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Deserción | BOOLEAN |
Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:
Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifica qué servicio de Internet tiene los clientes más desertores.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifica las tasas de deserción por segmento entre los clientes valiosos.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modos para generar estadísticas de datos
Cuando se generan estadísticas de datos, Knowledge Catalog proporciona dos modos:
| Modo | Descripción | Uso |
|---|---|---|
| Generar y publicar |
Persiste las estadísticas de datos generadas en Knowledge Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, se producen las siguientes acciones:
|
Usa este modo para la documentación de datos en toda la empresa que persiste y es reutilizable, o cuando compiles flujos de trabajo de administración basados en catálogos. |
| Generar sin publicar |
Crea estadísticas de datos, como descripciones, preguntas en lenguaje natural y consultas en SQL, a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog. |
Usa este modo para realizar exploraciones rápidas y ad hoc, y evitar saturar el catálogo. |
Precios
Para obtener detalles sobre los precios de esta función, consulta la Descripción general de los precios de Gemini en BigQuery.
Cuotas y límites
Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas para Gemini en BigQuery.
Ubicaciones
Puedes usar las estadísticas de datos en todas las ubicaciones de BigQuery. Para obtener información sobre dónde procesa tus datos Gemini en BigQuery, consulta Dónde procesa tus datos Gemini en BigQuery.
Limitaciones
- Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
- Las estadísticas de datos no admiten tipos de columna
GeoniJSON. - Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, vuelve a generar estadísticas en BigQuery Studio.
¿Qué sigue?
- Aprende a generar estadísticas en BigQuery.
- Obtén información para generar un análisis de perfil de datos.
- Aprende a escribir consultas con la asistencia de Gemini en BigQuery.