Las estadísticas de datos de Knowledge Catalog (antes Dataplex Universal Catalog) generan automáticamente descripciones, gráficos de relaciones y consultas en SQL a partir de los metadatos de tu tabla y conjunto de datos. Esta información te ayuda a comprender rápidamente la estructura, el contenido y las relaciones de los datos sin una configuración manual extensa. Para investigar más, puedes hacer preguntas adicionales en el lienzo de datos.
Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema de inicio en frío de cómo comenzar a escribir consultas. El problema puede implicar incertidumbres sobre la estructura de datos y los patrones clave en los datos. La función de estadísticas de datos de Knowledge Catalog ofrece una forma automatizada de explorar y comprender tus datos. Esto te ayuda a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.
¿Cómo funcionan las estadísticas de datos?
Las estadísticas de datos usan Gemini para analizar tus metadatos y generar lo siguiente:
Descripciones: Resúmenes generados por IA que explican el propósito del conjunto de datos, la estructura de la tabla y los detalles de columnas específicas
Consultas de ejemplo: Consultas en SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos o tabla
Gráficos de relaciones: Visualizaciones que muestran las conexiones y dependencias entre diferentes tablas dentro de tu conjunto de datos.
Recursos admitidos
Las estadísticas de datos están disponibles para los siguientes tipos de datos estructurados:
- Tablas, vistas y conjuntos de datos de BigQuery
- Tablas de BigLake (incluido Apache Iceberg)
- Tablas externas
- Tablas del catálogo de REST de Iceberg
Ejemplo de una ejecución de estadística
Las estadísticas de datos generan automáticamente consultas en lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla.
Considera una tabla llamada telco_churn con los siguientes metadatos:
| Nombre del campo | Tipo |
|---|---|
| CustomerID | STRING |
| Género | STRING |
| Permanencia | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Contrato | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Deserción | BOOLEAN |
Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:
Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifica qué servicio de Internet tiene los clientes más desertores.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifica las tasas de deserción por segmento entre los clientes valiosos.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modos para generar estadísticas de datos
Cuando se generan estadísticas de datos, Knowledge Catalog proporciona dos modos:
| Modo | Descripción | Uso |
|---|---|---|
| Generar y publicar |
Conserva las estadísticas de datos generadas en Knowledge Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, se realizan las siguientes acciones:
|
Usa este modo para la documentación de datos en toda la empresa que persiste y es reutilizable, o cuando compilas flujos de trabajo de gobernanza basados en catálogos. |
| Generar sin publicar |
Crea estadísticas de datos, como descripciones, preguntas en lenguaje natural, y consultas en SQL a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog. |
Usa este modo para una exploración rápida y ad hoc para evitar desordenar el catálogo. |
Precios
Para obtener detalles sobre los precios de esta función, consulta Descripción general de los precios de Gemini en BigQuery.
Cuotas y límites
Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas para Gemini en BigQuery.
Ubicaciones
Puedes usar estadísticas de datos en todas las ubicaciones de BigQuery. Para obtener información sobre dónde Gemini en BigQuery procesa tus datos, consulta Dónde Gemini en BigQuery procesa tus datos.
Limitaciones
- Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
- Las estadísticas de datos no admiten tipos de columna
GeoniJSON. - Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, vuelve a generar estadísticas en BigQuery Studio.
¿Qué sigue?
- Aprende a generar estadísticas en BigQuery.
- Aprende a generar un análisis de perfil de datos.
- Aprende a escribir consultas con la asistencia de Gemini en BigQuery.