Genera estadísticas de datos en BigQuery

Información valiosa es una forma automatizada de explorar, comprender y organizar tus datos. Con las estadísticas de datos, Gemini en BigQuery genera preguntas en lenguaje natural y las consultas de SQL para responderlas, basándose en los metadatos de las tablas. Estas estadísticas te ayudan a descubrir patrones, evaluar la calidad de los datos y realizar análisis estadísticos.

También puedes usar las estadísticas de datos para generar descripciones de tablas y columnas basadas en los metadatos de las tablas y publicarlas en Dataplex Universal Catalog. Esta función te ayuda a documentar tus datos para realizar análisis significativos y mejora la visibilidad de los conjuntos de datos.

En esta página se describen las funciones clave de las estadísticas de datos y el proceso para automatizar la generación de consultas con el fin de explorar los datos de forma valiosa.

Antes de empezar

Las estadísticas de datos se generan con Gemini en BigQuery. Para empezar a generar estadísticas, primero debes configurar Gemini en BigQuery.

Roles obligatorios

Para crear, gestionar y obtener estadísticas de datos, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

Para obtener acceso de solo lectura a las estadísticas generadas, pide a tu administrador que te conceda el siguiente rol de gestión de identidades y accesos:

Para publicar estadísticas de datos en Dataplex Universal Catalog, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos en el recurso:

Para habilitar las APIs, pide a tu administrador que te conceda el siguiente rol de gestión de identidades y accesos:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos. Para ver los permisos exactos que se necesitan para generar estadísticas, despliega la sección Permisos necesarios:

Permisos obligatorios

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Habilitar APIs

Para usar las estadísticas de datos, habilite las siguientes APIs en su proyecto: API Dataplex, API BigQuery y API Gemini para Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta el artículo sobre cómo habilitar la API de Gemini para Google Cloud en un proyecto. Google Cloud

Acerca de las estadísticas

Cuando exploran una tabla nueva y desconocida, los analistas de datos suelen enfrentarse al problema del arranque en frío. A menudo, el problema implica incertidumbres sobre la estructura de los datos, los patrones de claves y las estadísticas relevantes de los datos, lo que dificulta empezar a escribir consultas.

Estadísticas de datos aborda el problema del arranque en frío generando automáticamente consultas en lenguaje natural y sus equivalentes en SQL a partir de los metadatos de una tabla. En lugar de empezar con un editor de consultas vacío, puedes empezar rápidamente a explorar los datos con consultas significativas que te proporcionen información valiosa. Para investigar más a fondo, puedes hacer preguntas de seguimiento en el lienzo de datos.

Ejemplo de una ejecución de estadísticas

Supongamos que tenemos una tabla llamada telco_churn con los siguientes metadatos:

Nombre del campo Tipo
CustomerID STRING
Sexo STRING
Antigüedad INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Estas son algunas de las consultas de ejemplo que genera Estadísticas de datos para esta tabla:

  • Identifica a los clientes que se han suscrito a todos los servicios premium y que llevan más de 50 meses siendo clientes.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica qué servicio de Internet tiene la mayor tasa de abandono de clientes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica las tasas de abandono por segmento entre los clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modos para generar estadísticas

BigQuery ofrece dos modos al generar estadísticas:

Modo Descripción Uso
Generar y publicar (Vista previa)

Conserva las estadísticas generadas en Dataplex Universal Catalog como aspectos de metadatos. Debes tener los permisos necesarios para publicar.

Cuando usas Generar y publicar, se realizan las siguientes acciones:

  • Las descripciones de tablas y columnas se almacenan en Dataplex Universal Catalog.
  • Las consultas y las preguntas sugeridas se registran como aspectos reutilizables.
  • Las estadísticas publicadas se vuelven accesibles para todos los usuarios que tengan el acceso adecuado a Dataplex Universal Catalog, lo que garantiza que se comparta el conocimiento de la organización.
  • Puedes editar y guardar descripciones directamente en Dataplex Universal Catalog.
Usa este modo para la documentación de datos de toda la empresa que deba conservarse y reutilizarse, o cuando crees flujos de trabajo de gobernanza basados en catálogos.
Generar sin publicar Crea estadísticas (descripciones, preguntas en lenguaje natural y consultas de SQL) bajo demanda. Las estadísticas no se publican en Dataplex Universal Catalog. Usa este modo para hacer exploraciones rápidas y puntuales y evitar que se llene el catálogo.

Prácticas recomendadas para mejorar las estadísticas generadas

Para mejorar la precisión de las estadísticas generadas, siga estas prácticas recomendadas:

Basar las estadísticas en los resultados de la creación de perfiles de datos

En la IA generativa, la fundamentación es la capacidad de conectar la salida de un modelo con fuentes de información verificables. Puedes basar las estadísticas generadas en los resultados de la creación de perfiles de datos. Perfilado de datos: analiza las columnas de tus tablas de BigQuery e identifica características estadísticas comunes, como los valores de datos típicos y la distribución de los datos. Cuando crea un análisis de perfil de datos de una tabla, puede publicar los resultados del análisis en las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la Google Cloud consola. BigQuery usa los resultados de la creación de perfiles de datos para crear consultas más precisas y relevantes. Para ello, hace lo siguiente:

  1. Analiza los resultados de la creación de perfiles de datos para identificar patrones, tendencias o valores atípicos interesantes en los datos.
  2. Genera consultas centradas en estos patrones, tendencias o valores atípicos para descubrir estadísticas.
  3. Valida las consultas generadas con los resultados de la creación de perfiles de datos para asegurarse de que las consultas devuelven resultados significativos.

Si no se realizan análisis de elaboración de perfiles de datos, ocurre lo siguiente:

  • Es más probable que las consultas generadas incluyan cláusulas imprecisas o produzcan resultados sin sentido.
  • Las descripciones de las columnas generadas se basan únicamente en el nombre de la columna.

Asegúrate de que el análisis de perfil de datos de tu tabla esté actualizado y de que los resultados se publiquen en BigQuery.

Puedes ajustar la configuración de creación de perfiles de datos para aumentar el tamaño de la muestra y filtrar filas y columnas. Después de ejecutar un nuevo análisis de perfil de datos, vuelve a generar las estadísticas.

Añadir una descripción de la tabla

Las descripciones detalladas de las tablas que explican lo que quieres analizar en ellas pueden ayudar a Gemini en BigQuery a generar estadísticas más relevantes. Después de añadir una descripción a la tabla, vuelve a generar las estadísticas.

Por ejemplo, puede añadir la siguiente descripción a la tabla telco_churn: "Esta tabla registra los datos de abandono de clientes, incluidos los detalles de la suscripción, la antigüedad y el uso del servicio, para predecir el comportamiento de abandono de los clientes".

Si guardas la descripción de la tabla que genera Gemini, se usará para generar estadísticas en el futuro.

Añadir descripciones de columnas

Las descripciones de las columnas que explican qué es cada columna o cómo se relaciona una columna con otra pueden mejorar la calidad de tus estadísticas. Después de actualizar las descripciones de las columnas de la tabla, vuelve a generar las estadísticas.

Por ejemplo, puede añadir las siguientes descripciones a columnas específicas de la tabla telco_churn:

  • Tenure: "Número de meses que el cliente ha usado el servicio".
  • Churn: "Si el cliente ha dejado de usar el servicio. TRUE indica que el cliente ya no usa el servicio, mientras que FALSE indica que el cliente está activo."

Si guardas las descripciones de las columnas que genera Gemini, se usarán para generar estadísticas en el futuro.

Generar estadísticas de una tabla de BigQuery

Consola

Para generar estadísticas de una tabla de BigQuery, debes acceder a la entrada de la tabla en BigQuery mediante BigQuery Studio.

  1. En la Google Cloud consola, ve a BigQuery Studio.

    Ir a BigQuery Studio

  2. En el panel de la izquierda, haz clic en Explorador:

    Botón destacado del panel Explorador.

    Si no ves el panel de la izquierda, haz clic en Ampliar panel de la izquierda para abrirlo.

  3. En el panel Explorador, haz clic en Conjuntos de datos y, a continuación, selecciona el conjunto de datos que quieras.

  4. Haga clic en Resumen > Tablas y, a continuación, seleccione la tabla de la que quiera generar estadísticas.

  5. Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que aún no se han generado las estadísticas de esta tabla.

  6. Para generar estadísticas y publicarlas en Dataplex Universal Catalog, haz clic en Generar y publicar (Vista previa).

    Para generar estadísticas sin publicarlas en Dataplex Universal Catalog, haz clic en Generar sin publicar.

    Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas.

  7. Selecciona una región para generar estadísticas y haz clic en Generar.

    Las estadísticas tardarán unos minutos en aparecer.

    Si hay resultados de creación de perfil de datos publicados para la tabla, se utilizan para generar estadísticas. De lo contrario, las estadísticas se generan en función de los nombres y las descripciones de las columnas.

  8. En la pestaña Estadísticas, consulta las preguntas generadas en lenguaje natural.

  9. Para ver la consulta SQL que responde a una pregunta, haz clic en ella.

  10. Para abrir una consulta en BigQuery, haz clic en Copiar en consulta.

  11. Para hacer preguntas complementarias, sigue estos pasos:

    1. Haz clic en Hacer una pregunta de seguimiento. La consulta se abre en un nuevo lienzo de datos.

    2. Haz clic en Ejecutar y, a continuación, en Consultar estos resultados.

    3. Para hacer una pregunta de seguimiento, introduce una petición en el campo de petición Lenguaje natural o edita el SQL en el editor de consultas.

  12. Para generar un nuevo conjunto de consultas, haz clic en Generar estadísticas y vuelve a activar la canalización.

Una vez que hayas generado estadísticas de una tabla, cualquier usuario que tenga el permiso dataplex.datascans.getData y acceso a la tabla podrá verlas.

REST

Para generar estadísticas de tablas de BigQuery, usa el DATA_DOCUMENTATIONtipo de análisis que admite la API DataScans de Universal Catalog de Dataplex. Estos análisis generan metadatos, incluidas consultas SQL útiles para explorar los datos, descripciones de esquemas y resúmenes a nivel de tabla.

Para generar estadísticas de datos de una tabla de BigQuery, sigue estos pasos:

  1. Opcional: Crea un análisis de perfil de datos para la tabla. La presencia de estas lecturas reduce las alucinaciones y las aproximaciones de Gemini, ya que basa los resultados en valores reales presentes en los datos.

    1. Crea un análisis de perfil de datos con el método dataScans.create.

    2. Ejecuta el análisis de perfil de datos con el método dataScans.run. Espera a que se complete la ejecución.

    3. Publica los resultados del análisis en la tabla de BigQuery. Para ello, añade las siguientes etiquetas de creación de perfiles de datos a la tabla:

      • dataplex-dp-published-scan:DATASCAN_ID
      • dataplex-dp-published-project:PROJECT_ID
      • dataplex-dp-published-location:LOCATION

      Para obtener más información, consulta el artículo Añadir etiquetas a tablas y vistas.

  2. Genera un análisis de datos de documentación de datos para la tabla de BigQuery:

    1. Crea un análisis de datos de documentación de datos con el método dataScans.create.

      Por ejemplo:

      gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN_ID -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger":{ "onDemand":{} } }, "type":"DATA_DOCUMENTATION", "dataDocumentationSpec":{}}'
      

      Haz los cambios siguientes:

      • PROJECT_ID: el ID de tu proyecto de Google Cloud en el que se encuentra el conjunto de datos
      • LOCATION: la región en la que se ejecuta el análisis de datos
      • DATASCAN_ID: un nombre único que proporciones para este análisis
      • DATASET_ID: el ID del conjunto de datos de BigQuery que se está analizando
      • TABLE_ID: el ID de la tabla de BigQuery que se está analizando.
    2. Inicia el trabajo de análisis de documentación de datos con el método dataScans.run.

      Por ejemplo:

      gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID:run
      

      Esta solicitud devuelve un ID de trabajo único junto con el estado inicial.

    3. Comprueba si se ha completado la ejecución del trabajo de análisis mediante el método dataScans.get.

      Usa el ID de la tarea para obtener su estado. Por ejemplo:

      gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID
      

      El trabajo se completa cuando el estado es SUCCEEDED o FAILURE.

    4. Publica los resultados del análisis en la tabla de BigQuery añadiendo las siguientes etiquetas de documentación de datos a la tabla:

      • dataplex-data-documentation-published-scan:DATASCAN_ID
      • dataplex-data-documentation-published-project:PROJECT_ID
      • dataplex-data-documentation-published-location:LOCATION

Generar estadísticas de una tabla externa de BigQuery

La función Estadísticas de datos de BigQuery permite generar estadísticas de tablas externas de BigQuery con datos en Cloud Storage. Tanto tú como la cuenta de servicio de Dataplex Universal Catalog del proyecto actual debéis tener el rol Lector de objetos de almacenamiento (roles/storage.objectViewer) en el segmento de Cloud Storage que contiene los datos. Para obtener más información, consulta Añadir un principal a una política a nivel de segmento.

Para generar estadísticas de una tabla externa de BigQuery, sigue las instrucciones que se describen en la sección Generar estadísticas de una tabla de BigQuery de este documento.

Generar estadísticas de una tabla de BigLake

Para generar estadísticas de una tabla de BigLake, siga estos pasos:

  1. Habilita la API de conexión de BigQuery en tu proyecto.

    Habilita la API Connection de BigQuery

  2. Crea una conexión de BigQuery. Para obtener más información, consulta Gestionar conexiones.

  3. Concede el rol de gestión de identidades y accesos Lector de objetos de almacenamiento (roles/storage.objectViewer) a la cuenta de servicio correspondiente a la conexión de BigQuery que has creado.

    Puedes obtener el ID de la cuenta de servicio en los detalles de la conexión.

  4. Para generar estadísticas, sigue las instrucciones que se describen en la sección Generar estadísticas de una tabla de BigQuery de este documento.

Generar descripciones de tablas y columnas

Gemini en BigQuery genera automáticamente descripciones de tablas y columnas cuando generas estadísticas de datos. Puedes editar estas descripciones según sea necesario y, a continuación, guardarlas en los metadatos de la tabla. Las descripciones guardadas se usan para generar estadísticas en el futuro.

Controlar el idioma de generación

Puedes indicar a Gemini que genere descripciones de tablas y columnas en un idioma específico. Para ello, añade una directiva breve (por ejemplo, "Genera descripciones de tablas y columnas en francés") a la descripción de la tabla antes de generar las estadísticas de datos.

Cuando generas estadísticas, Gemini interpreta esta directiva y produce los metadatos en el idioma solicitado. Este mecanismo funciona porque Gemini usa las descripciones de las tablas como contexto cuando genera otras nuevas.

Para ver una lista de los idiomas disponibles, consulta Idiomas disponibles en Gemini.

Generar descripciones

Para generar descripciones de tablas y columnas, sigue estos pasos:

  1. Para generar estadísticas, sigue las instrucciones descritas en la sección correspondiente de este documento:

  2. Haz clic en la pestaña Esquema.

  3. Haz clic en Ver descripciones de las columnas.

    Se muestran la descripción de la tabla y las descripciones de las columnas que se han generado.

  4. Para editar y guardar la descripción de la tabla generada, siga estos pasos:

    1. En la sección Descripción de la tabla, haz clic en Guardar en detalles.

    2. Para sustituir la descripción actual por la generada, haz clic en Copiar descripción sugerida.

    3. Edite la descripción de la tabla según sea necesario y, a continuación, haga clic en Guardar en detalles.

      La descripción de la tabla se actualiza inmediatamente.

  5. Para editar y guardar las descripciones de las columnas generadas, siga estos pasos:

    1. En la sección Column descriptions (Descripciones de las columnas), haga clic en Save to schema (Guardar en el esquema).

      Las descripciones de las columnas que se han generado se rellenan en el campo Nueva descripción de cada columna.

    2. Edita las descripciones de las columnas según sea necesario y, a continuación, haz clic en Guardar.

      Las descripciones de las columnas se actualizan inmediatamente.

  6. Para cerrar el panel de vista previa, haz clic en Cerrar.

Precios

Para obtener información detallada sobre los precios de esta función, consulta el resumen de precios de Gemini en BigQuery.

Cuotas y límites

Para obtener información sobre las cuotas y los límites de esta función, consulta Cuotas de Gemini en BigQuery.

Limitaciones

  • La función Estadísticas de datos está disponible para tablas de BigQuery, tablas de BigLake, tablas externas y vistas.
  • En el caso de los clientes multicloud, los datos de otras nubes no están disponibles.
  • La función Estadísticas de datos no admite los tipos de columna Geo ni JSON.
  • Las ejecuciones de estadísticas no garantizan que se presenten consultas cada vez. Para aumentar las probabilidades de generar consultas más atractivas, vuelve a iniciar el flujo de procesamiento de estadísticas.
  • En las tablas con control de acceso a nivel de columna (LCAs) y permisos de usuario restringidos, puedes generar estadísticas si tienes acceso de lectura a todas las columnas de la tabla. Para ejecutar las consultas generadas, debes tener suficientes permisos.
  • Las descripciones de las columnas se generan para un máximo de 350 columnas por tabla.

Ubicaciones

Puedes usar las estadísticas de datos en todas las ubicaciones de BigQuery. Gemini en BigQuery opera a nivel mundial, por lo que no puedes restringir el procesamiento de datos a una región específica. Para obtener más información sobre las ubicaciones en las que Gemini en BigQuery procesa datos, consulta Ubicaciones de servicio de Gemini.

Siguientes pasos