Genera estadísticas de datos en BigQuery

Las estadísticas de datos son una forma automatizada de explorar, comprender y seleccionar tus datos. Con las estadísticas de datos, Gemini en BigQuery genera preguntas en lenguaje natural y las consultas en SQL para responderlas, según los metadatos de la tabla. Estas estadísticas te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

También puedes usar las estadísticas de datos para generar descripciones de tablas y columnas basadas en los metadatos de las tablas y publicarlas en Dataplex Universal Catalog. Esta función te ayuda a documentar tus datos para realizar análisis significativos y mejorar la visibilidad del conjunto de datos.

En esta página, se describen las características clave de las estadísticas de datos y el proceso para automatizar la generación de consultas para la exploración de datos valiosa.

Antes de comenzar

Las estadísticas de datos se generan con Gemini en BigQuery. Para comenzar a generar estadísticas, primero debes configurar Gemini en BigQuery.

Roles obligatorios

Para crear, administrar y recuperar estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener acceso de solo lectura a las estadísticas generadas, pídele a tu administrador que te otorgue el siguiente rol de IAM:

Para publicar estadísticas de datos en Dataplex Universal Catalog, pídele a tu administrador que te otorgue los siguientes roles de IAM en el recurso:

Para habilitar las APIs, pídele a tu administrador que te otorgue el siguiente rol de IAM:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido. Para ver los permisos exactos que son necesarios para generar estadísticas, expande la sección Permisos requeridos:

Permisos necesarios

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto: API de Dataplex, API de BigQuery y API de Gemini para Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .

Acerca de las estadísticas de datos

Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema de inicio en frío. A menudo, el problema implica incertidumbres sobre la estructura de datos, los patrones clave y las estadísticas pertinentes en los datos, lo que dificulta comenzar a escribir consultas.

Las estadísticas de datos abordan el problema de inicio en frío, ya que generan automáticamente consultas en lenguaje natural y sus equivalentes en SQL según los metadatos de una tabla. En lugar de comenzar con un editor de consultas vacío, puedes iniciar rápidamente la exploración de datos con consultas significativas que ofrecen estadísticas valiosas. Para investigar más a fondo, puedes hacer preguntas adicionales en el lienzo de datos.

Ejemplo de una ejecución de estadística

Considera una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo Tipo
CustomerID STRING
Género STRING
Permanencia INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Deserción BOOLEAN

Estos son algunas de las consultas de ejemplo que las estadísticas de datos generan para esta tabla:

  • Identifica a los clientes que se hayan suscrito a todos los servicios premium y que sean clientes desde hace más de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica qué servicio de Internet tiene los clientes más desertores.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica las tasas de deserción por segmento entre los clientes valiosos.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modos para generar estadísticas

BigQuery proporciona dos modos cuando genera estadísticas:

Modo Descripción Uso
Generar y publicar (versión preliminar)

Persiste las estadísticas generadas en Dataplex Universal Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar.

Cuando usas Generar y publicar, se producen las siguientes acciones:

  • Las descripciones de tablas y columnas se almacenan en Dataplex Universal Catalog.
  • Las preguntas y las búsquedas sugeridas se capturan como aspectos reutilizables.
  • Las estadísticas publicadas se vuelven accesibles para todos los usuarios que tienen el acceso adecuado a Dataplex Universal Catalog, lo que garantiza el conocimiento compartido de la organización.
  • Puedes editar y guardar descripciones directamente en Dataplex Universal Catalog.
Usa este modo para la documentación de datos en toda la empresa que debe persistir y reutilizarse, o cuando compiles flujos de trabajo de gobernanza basados en catálogos.
Generar sin publicar Crea estadísticas (descripciones, preguntas en lenguaje natural y consultas en SQL) a pedido. Las estadísticas no se publican en Dataplex Universal Catalog. Usa este modo para realizar exploraciones ad hoc rápidas y evitar saturar el catálogo.

Prácticas recomendadas para mejorar las estadísticas generadas

Para mejorar la precisión de las estadísticas generadas, sigue estas prácticas recomendadas:

Fundamenta las estadísticas en los resultados de la creación de perfiles de datos

En la IA generativa, los fundamentos son la capacidad de conectar el resultado del modelo con fuentes de información verificables. Puedes fundamentar las estadísticas generadas en los resultados de la creación de perfiles de datos. La creación de perfiles de datos analiza las columnas de tus tablas de BigQuery y, luego, identifica características estadísticas comunes, como los valores típicos de los datos y la distribución de los datos. Cuando crees un análisis de generación de perfiles de datos para una tabla, puedes optar por publicar los resultados del análisis en las páginas del catálogo universal de BigQuery y Dataplex en la consola de Google Cloud . BigQuery usa los resultados de la creación de perfiles de datos para crear consultas más precisas y pertinentes de la siguiente manera:

  1. Analiza los resultados de la generación de perfiles de datos para identificar patrones, tendencias o valores atípicos interesantes en los datos.
  2. Genera consultas que se centran en estos patrones, tendencias o valores atípicos para descubrir estadísticas.
  3. Valida las consultas generadas con los resultados del perfilamiento de datos para garantizar que las consultas muestren resultados significativos.

Sin los análisis de creación de perfiles de datos, sucede lo siguiente:

  • Es más probable que las búsquedas generadas incluyan cláusulas imprecisas o produzcan resultados sin sentido.
  • Las descripciones de las columnas generadas se basan únicamente en el nombre de la columna.

Asegúrate de que el análisis de perfil de datos de tu tabla esté actualizado y de que los resultados se publiquen en BigQuery.

Puedes ajustar la configuración de la generación de perfiles de datos para aumentar el tamaño de la muestra y filtrar filas y columnas. Después de ejecutar un nuevo análisis de perfil de datos, vuelve a generar estadísticas.

Agrega una descripción de la tabla

Las descripciones detalladas de las tablas que describen lo que deseas analizar en tu tabla pueden ayudar a Gemini en BigQuery a producir estadísticas más relevantes. Después de agregar una descripción de la tabla, vuelve a generar estadísticas.

Por ejemplo, puedes agregar la siguiente descripción a la tabla telco_churn: "En esta tabla, se realiza un seguimiento de los datos de abandono de clientes, incluidos los detalles de suscripción, la antigüedad y el uso del servicio, para predecir el comportamiento de abandono de los clientes".

Si guardas la descripción de la tabla que genera Gemini, se usará para generar estadísticas futuras.

Agrega descripciones de columnas

Las descripciones de las columnas que explican qué es cada columna o cómo se relaciona una columna con otra pueden mejorar la calidad de tus estadísticas. Después de actualizar las descripciones de las columnas en tu tabla, vuelve a generar estadísticas.

Por ejemplo, puedes agregar las siguientes descripciones a columnas específicas de la tabla telco_churn:

  • Tenure: "Cantidad de meses que el cliente lleva usando el servicio".
  • Churn: "Indica si el cliente dejó de usar el servicio. VERDADERO indica que el cliente ya no usa el servicio. FALSO indica que el cliente está activo".

Si guardas las descripciones de las columnas que genera Gemini, se usarán para generar estadísticas en el futuro.

Genera estadísticas para una tabla de BigQuery

Console

Para generar estadísticas para una tabla de BigQuery, debes acceder a la entrada de la tabla en BigQuery mediante BigQuery Studio.

  1. En la consola de Google Cloud , ve a BigQuery Studio.

    Ir a BigQuery Studio

  2. En el panel de la izquierda, haz clic en Explorar:

    Botón destacado del panel Explorador.

    Si no ves el panel izquierdo, haz clic en Expandir panel izquierdo para abrirlo.

  3. En el panel Explorador, haz clic en Conjuntos de datos y, luego, selecciona tu conjunto de datos.

  4. Haz clic en Resumen > Tablas y, luego, selecciona la tabla para la que deseas generar estadísticas.

  5. Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.

  6. Para generar estadísticas y publicarlas en Dataplex Universal Catalog, haz clic en Generar y publicar (Vista previa).

    Para generar estadísticas sin publicarlas en Dataplex Universal Catalog, haz clic en Generar sin publicar.

    Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas.

  7. Selecciona una región para generar estadísticas y haz clic en Generar.

    Las estadísticas tardan unos minutos en propagarse.

    Si hay resultados publicados de la creación de perfiles de datos para la tabla, se usan para generar estadísticas. De lo contrario, las estadísticas se generan en función de los nombres y las descripciones de las columnas.

  8. En la pestaña Estadísticas, explora las preguntas generadas en lenguaje natural.

  9. Para ver la consulta en SQL que responde una pregunta, haz clic en la pregunta.

  10. Para abrir una consulta en BigQuery, haz clic en Copiar en la consulta.

  11. Para hacer preguntas de seguimiento, haz lo siguiente:

    1. Haz clic en Haz una pregunta adicional. La consulta se abrirá en un nuevo lienzo de datos.

    2. Haz clic en Ejecutar y, luego, en Consultar estos resultados.

    3. Para hacer una pregunta de seguimiento, ingresa una instrucción en el campo de instrucción de lenguaje natural o edita el código SQL en el editor de consultas.

  12. Para generar un conjunto de consultas nuevo, haz clic en Generar estadísticas y vuelve a activar la canalización.

Después de generar estadísticas para una tabla, cualquier persona con el permiso dataplex.datascans.getData y acceso a la tabla podrá verlas.

REST

Para generar estadísticas sobre las tablas de BigQuery, usa el tipo de análisis DATA_DOCUMENTATION que admite la API de DataScans de Dataplex Universal Catalog. Estos análisis generan metadatos, incluidas consultas de SQL útiles para la exploración de datos, descripciones de esquemas y resúmenes a nivel de la tabla.

Para generar estadísticas de datos para una tabla de BigQuery, sigue estos pasos:

  1. Opcional: Crea un análisis del perfil de datos para la tabla. La presencia de estos análisis reduce las alucinaciones y las aproximaciones de Gemini, ya que fundamentan el resultado en valores reales presentes en los datos.

    1. Crea un análisis de perfil de datos con el método dataScans.create.

    2. Ejecuta el análisis del perfil de datos con el método dataScans.run. Espera a que se complete la ejecución.

    3. Publica los resultados del análisis en la tabla de BigQuery adjuntando las siguientes etiquetas de generación de perfiles de datos a la tabla:

      • dataplex-dp-published-scan:DATASCAN_ID
      • dataplex-dp-published-project:PROJECT_ID
      • dataplex-dp-published-location:LOCATION

      Para obtener más información, consulta Cómo agregar etiquetas a tablas y vistas.

  2. Genera un análisis de datos de documentación de datos para la tabla de BigQuery:

    1. Crea un análisis de datos de documentación de datos con el método dataScans.create.

      Por ejemplo:

      gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN_ID -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger":{ "onDemand":{} } }, "type":"DATA_DOCUMENTATION", "dataDocumentationSpec":{}}'
      

      Reemplaza lo siguiente:

      • PROJECT_ID: Es el ID de tu proyecto de Google Clouden el que reside el conjunto de datos.
      • LOCATION: Es la región en la que se ejecuta el análisis de datos.
      • DATASCAN_ID: Es un nombre único que proporcionas para este análisis.
      • DATASET_ID: Es el ID del conjunto de datos de BigQuery que se analiza.
      • TABLE_ID: Es el ID de la tabla de BigQuery que se analiza.
    2. Inicia el trabajo de análisis de documentación de datos con el método dataScans.run.

      Por ejemplo:

      gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID:run
      

      Esta solicitud devuelve un ID de trabajo único junto con el estado inicial.

    3. Verifica que se haya completado la ejecución del trabajo de análisis con el método dataScans.get.

      Usa el ID del trabajo para recuperar su estado. Por ejemplo:

      gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID
      

      El trabajo se completa cuando el estado es SUCCEEDED o FAILURE.

    4. Publica los resultados del análisis en la tabla de BigQuery adjuntando las siguientes etiquetas de documentación de datos a la tabla:

      • dataplex-data-documentation-published-scan:DATASCAN_ID
      • dataplex-data-documentation-published-project:PROJECT_ID
      • dataplex-data-documentation-published-location:LOCATION

Genera estadísticas para una tabla externa de BigQuery

Las estadísticas de datos de BigQuery admiten la generación de estadísticas para tablas externas de BigQuery con datos en Cloud Storage. Tú y la cuenta de servicio de Dataplex Universal Catalog para el proyecto actual deben tener el rol de visualizador de objetos de almacenamiento (roles/storage.objectViewer) en el bucket de Cloud Storage que contiene los datos. Para obtener más información, consulta Agrega una principal a una política a nivel del bucket.

A fin de generar estadísticas para una tabla externa de BigQuery, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.

Genera estadísticas para una tabla de BigLake

Para generar estadísticas para una tabla de BigLake, sigue estos pasos:

  1. Habilita la API de conexión de BigQuery en tu proyecto.

    Habilita la API de conexión de BigQuery

  2. Crea una conexión de BigQuery. Para obtener más información, consulta Administra conexiones.

  3. Otórgale el rol de IAM de visualizador de objetos de almacenamiento (roles/storage.objectViewer) a la cuenta de servicio correspondiente a la conexión de BigQuery que creaste.

    Puedes recuperar el ID de la cuenta de servicio desde los detalles de conexión.

  4. Para generar estadísticas, sigue las instrucciones descritas en la sección Genera estadísticas para una tabla de BigQuery de este documento.

Genera descripciones de tablas y columnas

Gemini en BigQuery genera automáticamente descripciones de tablas y columnas cuando generas estadísticas de datos. Puedes editar estas descripciones según sea necesario y, luego, guardarlas en los metadatos de la tabla. Las descripciones guardadas se usan para generar estadísticas futuras.

Controla el idioma de generación

Puedes guiar a Gemini para que genere descripciones de tablas y columnas en un idioma específico. Para ello, agrega una directiva breve (por ejemplo, "Genera descripciones de tablas y columnas en francés") a la descripción existente de tu tabla antes de generar las estadísticas de datos.

Cuando generas estadísticas, Gemini interpreta esta directiva y produce los metadatos en el idioma solicitado. Este mecanismo funciona porque Gemini usa las descripciones de tablas existentes como contexto cuando genera descripciones nuevas.

Para obtener una lista de los idiomas admitidos, consulta Compatibilidad con idiomas de Gemini.

Generar descripciones

Para generar descripciones de tablas y columnas, sigue estos pasos:

  1. Para generar estadísticas, sigue las instrucciones que se describen en la sección correspondiente de este documento:

  2. Haz clic en la pestaña Esquema.

  3. Haz clic en Ver descripciones de columnas.

    Se muestran la descripción de la tabla y las descripciones de las columnas que se generaron.

  4. Para editar y guardar la descripción de la tabla generada, haz lo siguiente:

    1. En la sección Descripción de la tabla, haz clic en Guardar en detalles.

    2. Para reemplazar la descripción actual por la descripción generada, haz clic en Copiar la descripción sugerida.

    3. Edita la descripción de la tabla según sea necesario y, luego, haz clic en Guardar en detalles.

      La descripción de la tabla se actualiza de inmediato.

  5. Para editar y guardar las descripciones de las columnas generadas, haz lo siguiente:

    1. En la sección Descripciones de columnas, haz clic en Guardar en el esquema.

      Las descripciones de las columnas que se generaron se completan en el campo Nueva descripción de cada columna.

    2. Edita las descripciones de las columnas según sea necesario y, luego, haz clic en Guardar.

      Las descripciones de las columnas se actualizan de inmediato.

  6. Para cerrar el panel de vista previa, haz clic en Cerrar.

Precios

Para obtener detalles sobre los precios de esta función, consulta la Descripción general de los precios de Gemini en BigQuery.

Cuotas y límites

Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas para Gemini en BigQuery.

Limitaciones

  • Las estadísticas de datos están disponibles para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
  • Para los clientes de múltiples nubes, los datos de otras nubes no están disponibles.
  • Las estadísticas de datos no admiten tipos de columna Geo ni JSON.
  • Las ejecuciones de estadísticas no garantizan la presentación de las consultas cada vez. Para aumentar la probabilidad de generar consultas más atractivas, reinicia la canalización de estadísticas.
  • Para las tablas con control de acceso (LCA) a nivel de columna y permisos de usuario restringidos, puedes generar estadísticas si tienes acceso de lectura a todas las columnas de la tabla. Para ejecutar las consultas generadas, debes tener permisos suficientes.
  • Las descripciones de las columnas se generan para un máximo de 350 columnas en una tabla.

Ubicaciones

Puedes usar las estadísticas de datos en todas las ubicaciones de BigQuery. Gemini en BigQuery opera a nivel global, por lo que no puedes restringir el procesamiento de datos a una región específica. Para obtener más información sobre las ubicaciones en las que Gemini in BigQuery procesa datos, consulta Ubicaciones de servicio de Gemini.

¿Qué sigue?