Descripción general de las estadísticas de datos
En este documento, se proporciona una descripción general de las estadísticas de datos, una función de Gemini en BigQuery que ayuda a acelerar la exploración y el análisis iniciales cuando se enfrentan a datos nuevos o desconocidos. Las estadísticas de datos generan automáticamente descripciones, gráficos de relaciones y consultas en SQL, junto con preguntas sugeridas en lenguaje natural, a partir de los metadatos de tu tabla y conjunto de datos. Esta información te ayuda a comprender rápidamente la estructura, el contenido y las relaciones de los datos sin necesidad de realizar una configuración manual extensa.
Antes de comenzar
Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.
Tipos de estadísticas de datos
Puedes generar estadísticas de datos a nivel de la tabla o del conjunto de datos:
Para las tablas: Gemini genera preguntas en lenguaje natural y sus equivalentes en SQL para ayudarte a comprender los datos dentro de una sola tabla. Con las estadísticas de tablas, puedes detectar patrones, anomalías, valores atípicos o problemas de calidad de los datos en una tabla. Gemini también genera descripciones de tablas y columnas.
Para conjuntos de datos: (Versión preliminar) Gemini genera un gráfico de relaciones interactivo que muestra las relaciones entre tablas y las consultas en SQL entre tablas para ayudarte a comprender cómo se relacionan las tablas en un conjunto de datos. A través de los gráficos de relaciones, puedes descubrir cómo se derivan los datos, lo que puede ayudar con los problemas de calidad, coherencia o redundancia. A través de las consultas entre tablas, puedes encontrar relaciones más amplias. Por ejemplo, puedes calcular los ingresos por segmento de clientes aprovechando los datos de una tabla de ventas y una tabla de clientes.
Para investigar más, puedes hacer preguntas adicionales en el lienzo de datos.
Estadísticas de la tabla
Las estadísticas de la tabla te ayudan a comprender el contenido, la calidad y los patrones dentro de una sola tabla de BigQuery. Por ejemplo, si generas consultas que realizan análisis estadísticos, puedes usar las estadísticas de la tabla para detectar patrones, anomalías y valores atípicos en los datos. Las estadísticas de la tabla también pueden ayudarte a detectar problemas de calidad, en especial cuando hay análisis de perfil de datos disponibles para una tabla. Cuando generas estadísticas para una tabla, Gemini proporciona la descripción de la tabla, las descripciones de las columnas y el resultado del análisis del perfil en función de los metadatos de la tabla. Las siguientes opciones están disponibles:
- Generar consultas: Sugiere preguntas en lenguaje natural y proporciona las consultas en SQL correspondientes para responderlas. Esto te ayuda a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos sin escribir código SQL desde cero.
- Generar descripciones: Genera descripciones para la tabla y sus columnas. Gemini usa el resultado del análisis de perfil (si está disponible) para fundamentar las descripciones generadas. Puedes revisar, editar y publicar estas descripciones en Dataplex Universal Catalog para mejorar la documentación y la detección de datos.
Estadísticas del conjunto de datos
Las estadísticas del conjunto de datos te ayudan a comprender las relaciones y las rutas de unión en varias tablas dentro de un conjunto de datos de BigQuery, lo que proporciona una vista integral del contenido del conjunto de datos. Cuando generas estadísticas para un conjunto de datos, Gemini proporciona lo siguiente:
- Dataset description: Proporciona un resumen del conjunto de datos generado por IA.
- Relaciones: Muestra un mapa visual interactivo que muestra las relaciones entre las tablas dentro del conjunto de datos. Puedes colocar el cursor sobre las conexiones para ver los detalles de la relación, como las claves de unión.
- Tabla de relaciones: Presenta una vista tabular de las relaciones entre las tablas, incluidas las claves externas y las uniones inferidas. Las relaciones pueden definirse según el esquema (a partir de restricciones de claves primarias y externas), según el uso (a partir de registros de consultas) o Gemini las puede inferir según los nombres y las descripciones de las tablas y las columnas.
- Recomendaciones de consultas: Ofrece consultas de SQL de ejemplo que muestran cómo unir datos en diferentes tablas, según las relaciones identificadas.
Ejemplo de estadísticas sobre los datos de la tabla
Considera una tabla llamada telco_churn con columnas como CustomerID, Tenure, InternetService, Contract, MonthlyCharges y Churn.
En la siguiente tabla, se describen los metadatos de la tabla.
| Nombre del campo | Tipo |
|---|---|
CustomerID |
STRING |
Gender |
STRING |
Tenure |
INT64 |
InternetService |
STRING |
StreamingTV |
STRING |
OnlineBackup |
STRING |
Contract |
STRING |
TechSupport |
STRING |
PaymentMethod |
STRING |
MonthlyCharges |
FLOAT64 |
Churn |
BOOL |
Las estadísticas de datos generan las siguientes consultas de ejemplo para esta tabla:
Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identifica qué servicio de Internet tiene los clientes más desertores.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY customers DESC LIMIT 1;
Ejemplo de estadísticas de datos del conjunto de datos
Considera un conjunto de datos que contiene las tablas order_items y inventory_items. Las estadísticas del conjunto de datos pueden inferir que order_items.inventory_item_id se relaciona con inventory_items.id.
Según estas relaciones, Gemini podría generar la siguiente consulta entre tablas:
Identifica las 5 categorías de productos principales con el precio de oferta promedio más alto y su costo promedio correspondiente.
SELECT
ii.product_category,
AVG(oi.sale_price) AS avg_sale_price,
AVG(ii.cost) AS avg_cost
FROM
`ecommerce_data.order_items` AS oi
JOIN
`ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
ii.product_category
ORDER BY
avg_sale_price DESC
LIMIT 5;
Flujos de trabajo de estadísticas de datos
En esta sección, se describen los flujos de trabajo clave que pueden realizar los diferentes roles de usuario con la función de estadísticas de datos en BigQuery.
Workflows para los consumidores de datos
Estos flujos de trabajo se enfocan en las tareas de los analistas de datos, los analistas de negocios y otros usuarios que necesitan encontrar, comprender y analizar datos.
Comprende una tabla de BigQuery: Comprende rápidamente el esquema, el contenido y los posibles usos de una tabla específica. Después de seleccionar una tabla en BigQuery Studio, puedes realizar las siguientes tareas:
Revisa las descripciones de tablas y columnas generadas automáticamente.
Examina las preguntas sugeridas en lenguaje natural y las consultas en SQL equivalentes para comprender los matices de los datos.
Adapta y ejecuta las consultas sugeridas para iniciar el análisis.
Para obtener más información sobre cómo generar y ver estadísticas de tablas, consulta Genera estadísticas de tablas.
Explorar un conjunto de datos completo: Descubre las relaciones entre las tablas dentro de un conjunto de datos y comprende su estructura general. Después de seleccionar un conjunto de datos en BigQuery Studio, puedes realizar las siguientes tareas:
Generar y ver estadísticas del conjunto de datos
Usa el gráfico de relaciones interactivo para visualizar las conexiones entre las tablas.
Analiza la tabla de relaciones para las claves de unión y los tipos de conexión (definidos por el esquema, basados en el uso, inferidos por LLM).
Usa las consultas en SQL entre tablas sugeridas para consultar varias tablas de manera eficaz.
Para obtener más información sobre cómo generar y ver estadísticas del conjunto de datos, consulta Genera estadísticas del conjunto de datos.
Workflows para productores de datos
Estos flujos de trabajo son para ingenieros de datos, ingenieros de análisis y otras personas que crean y administran activos de datos.
Genera documentación de datos de referencia: Crea y mantén automáticamente descripciones de metadatos esenciales. Puedes realizar las siguientes tareas:
Después de crear o modificar una tabla, activa las estadísticas de datos para generar descripciones de tablas y columnas. También puedes generar estas descripciones a gran escala con la API de generación automática de metadatos de Dataplex Universal Catalog.
Revisa y perfecciona el texto generado por IA para garantizar la precisión técnica y la relevancia comercial.
Para obtener más información sobre cómo generar descripciones de tablas y columnas, consulta Genera estadísticas de tablas.
Mejora la comprensión de los conjuntos de datos para los usuarios: Facilita a los consumidores la comprensión y el uso de los conjuntos de datos proporcionados. Puedes realizar las siguientes tareas:
Genera estadísticas del conjunto de datos para los conjuntos de datos clave, en especial aquellos con relaciones complejas.
Asegúrate de que los análisis de perfil de datos se ejecuten en las tablas para proporcionar un contexto enriquecido que permita obtener estadísticas más precisas y útiles.
Para obtener más información, consulta Cómo generar estadísticas del conjunto de datos y Cómo fundamentar las estadísticas en los resultados de la generación de perfiles de datos.
Workflows para administradores de datos
Estos flujos de trabajo ayudan a los administradores de datos y a los equipos de administración a mantener la integridad y la confianza de los datos.
Validar y auditar los metadatos generados por IA: Garantizar la exactitud y confiabilidad de los metadatos producidos por las estadísticas de datos Puedes realizar las siguientes tareas:
Revisa periódicamente las descripciones y las relaciones que genera la función de estadísticas.
Compara las relaciones inferidas en el gráfico de relaciones con los modelos de datos y la lógica empresarial establecidos.
Revisa y corrige las imprecisiones en los metadatos generados por IA.
Para obtener más información, consulta Genera estadísticas de tablas y Genera estadísticas de conjuntos de datos.
Precios
Para obtener detalles sobre los precios de esta función, consulta la Descripción general de los precios de Gemini en BigQuery.
Cuotas y límites
Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas para Gemini en BigQuery.
Limitaciones
Las estadísticas de datos tienen las siguientes limitaciones:
Las estadísticas de datos están disponibles para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
Las estadísticas de datos no admiten tipos de columna
GEOniJSON.Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, reinicia la canalización de estadísticas.
Para las tablas con control de acceso a nivel de columna y permisos de usuario restringidos, puedes generar estadísticas si tienes acceso de lectura a todas las columnas de la tabla. Para ejecutar las consultas generadas, debes tener permisos suficientes.
Gemini genera descripciones de columnas para un máximo de 350 columnas en una tabla.
En el caso de las estadísticas del conjunto de datos, no puedes editar las relaciones en el gráfico de relaciones.
Cuando se generan estadísticas nuevas del conjunto de datos, se reemplazan las estadísticas anteriores de ese conjunto de datos.
Las estadísticas del conjunto de datos no admiten conjuntos de datos vinculados.
Ubicaciones
Puedes usar las estadísticas de datos en todas las ubicaciones de BigQuery. Para obtener información sobre dónde procesa tus datos Gemini en BigQuery, consulta Dónde procesa tus datos Gemini en BigQuery.
¿Qué sigue?
Aprende a generar estadísticas de tablas.
Obtén más información para generar estadísticas del conjunto de datos.
Obtén más información sobre la generación de perfiles de datos de Dataplex Universal Catalog.
Aprende a escribir consultas con la asistencia de Gemini en BigQuery.
Obtén más información sobre Gemini en BigQuery.
Aprende a iterar los resultados de las consultas con preguntas en lenguaje natural usando el lienzo de datos.