Acerca de las estadísticas de datos para los datos estructurados

Las estadísticas de datos de Knowledge Catalog (antes Dataplex Universal Catalog) generan automáticamente descripciones, gráficos de relaciones y consultas en SQL a partir de los metadatos de tu tabla y conjunto de datos. Esta información te ayuda a comprender rápidamente la estructura, el contenido y las relaciones de los datos sin una configuración manual extensa. Para investigar más, puedes hacer preguntas adicionales en el lienzo de datos.

Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema de inicio en frío de cómo comenzar a escribir consultas. El problema puede implicar incertidumbres sobre la estructura de datos y los patrones clave en los datos. La función de estadísticas de datos de Knowledge Catalog ofrece una forma automatizada de explorar y comprender tus datos. Esto te ayuda a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

¿Cómo funcionan las estadísticas de datos?

Las estadísticas de datos usan Gemini para analizar tus metadatos y generar lo siguiente:

  • Descripciones: Resúmenes generados por IA que explican el propósito del conjunto de datos, la estructura de la tabla y los detalles de columnas específicas

  • Consultas de ejemplo: Consultas en SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos o tabla

  • Gráficos de relaciones: Visualizaciones que muestran las conexiones y dependencias entre diferentes tablas dentro de tu conjunto de datos.

Recursos admitidos

Las estadísticas de datos están disponibles para los siguientes tipos de datos estructurados:

  • Tablas, vistas y conjuntos de datos de BigQuery
  • Tablas de BigLake (incluido Apache Iceberg)
  • Tablas externas
  • Tablas del catálogo de REST de Iceberg

Ejemplo de una ejecución de estadística

Las estadísticas de datos generan automáticamente consultas en lenguaje natural y sus equivalentes en SQL en función de los metadatos de una tabla.

Considera una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo Tipo
CustomerID STRING
Género STRING
Permanencia INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Deserción BOOLEAN

Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:

  • Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica qué servicio de Internet tiene los clientes más desertores.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica las tasas de deserción por segmento entre los clientes valiosos.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modos para generar estadísticas de datos

Cuando se generan estadísticas de datos, Knowledge Catalog proporciona dos modos:

Modo Descripción Uso
Generar y publicar

Conserva las estadísticas de datos generadas en Knowledge Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar. Cuando usas Generar y publicar, se realizan las siguientes acciones:

  • Almacena descripciones de tablas y columnas en Knowledge Catalog.
  • Captura las consultas y preguntas sugeridas como aspectos reutilizables aspectos.
  • Hace que las estadísticas publicadas sean accesibles para todos los usuarios que tengan acceso adecuado a Knowledge Catalog, lo que garantiza el conocimiento organizacional compartido.
  • Te permite editar y guardar descripciones directamente en Knowledge Catalog.

Usa este modo para la documentación de datos en toda la empresa que persiste y es reutilizable, o cuando compilas flujos de trabajo de gobernanza basados en catálogos.

Generar sin publicar

Crea estadísticas de datos, como descripciones, preguntas en lenguaje natural, y consultas en SQL a pedido. Generar sin publicar no publica estadísticas en Knowledge Catalog.

Usa este modo para una exploración rápida y ad hoc para evitar desordenar el catálogo.

Precios

Para obtener detalles sobre los precios de esta función, consulta Descripción general de los precios de Gemini en BigQuery.

Cuotas y límites

Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas para Gemini en BigQuery.

Ubicaciones

Puedes usar estadísticas de datos en todas las ubicaciones de BigQuery. Para obtener información sobre dónde Gemini en BigQuery procesa tus datos, consulta Dónde Gemini en BigQuery procesa tus datos.

Limitaciones

  • Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
  • Las estadísticas de datos no admiten tipos de columna Geo ni JSON.
  • Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, vuelve a generar estadísticas en BigQuery Studio.

¿Qué sigue?