Usa estadísticas de datos para datos estructurados

En este documento, se explica cómo generar, ver y administrar estadísticas de datos para tus datos estructurados. El uso de estadísticas de datos potenciadas por IA te ayuda a acelerar la exploración de datos, ya que genera automáticamente descripciones, gráficos de relaciones y consultas en SQL a partir de los metadatos de tu tabla y conjunto de datos.

En BigQuery Studio, puedes generar estadísticas de datos para conjuntos de datos, tablas, vistas, Google Cloud tablas de Lakehouse y tablas externas de BigQuery.

En Knowledge Catalog, puedes generar estadísticas de datos para las tablas del catálogo de REST de Lakehouse Iceberg.

Antes de comenzar

Antes de usar las estadísticas de datos, asegúrate de haber completado los siguientes requisitos previos:

Roles obligatorios

Para obtener los permisos que necesitas para usar las estadísticas de datos, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para usar las estadísticas de datos. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para usar las estadísticas de datos:

  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Habilita las APIs

Para usar las estadísticas de datos, habilita las siguientes APIs en tu proyecto:

  • API de Dataplex
  • API de BigQuery
  • API de Gemini for Google Cloud

Roles necesarios para habilitar las APIs

Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.

Habilitar las API

Para obtener más información sobre cómo habilitar la API de Gemini para Google Cloud, consulta Habilita la API de Gemini para Google Cloud en un proyecto de Google Cloud .

Preparar los datos

En el caso de las Google Cloud tablas de Lakehouse, asegúrate de que tus datos estén en Cloud Storage y de haber creado una Google Cloud tabla de Lakehouse.

En el caso de las tablas del catálogo de REST de Iceberg, asegúrate de que estén registradas en el catálogo del entorno de ejecución de Lakehouse.

Genera estadísticas en BigQuery

Las estadísticas de datos para los conjuntos de datos, las tablas, las vistas, las tablas deGoogle Cloud Lakehouse y las tablas externas de BigQuery se generan con Gemini en BigQuery y solo se pueden generar en BigQuery Studio.

Primero debes configurar Gemini en BigQuery y, luego, generar estadísticas. Después de generar estadísticas, puedes verlas y modificarlas en Knowledge Catalog.

Para obtener más información sobre cómo generar estadísticas en BigQuery, consulta los siguientes documentos:

Genera estadísticas para las tablas del catálogo de REST de Iceberg

  1. En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.

    Ir a Búsqueda

  2. En Filters, selecciona Lakehouse.

  3. Selecciona la tabla del catálogo REST de Iceberg para la que deseas generar estadísticas.

  4. Haz clic en la pestaña Estadísticas. Si la pestaña está vacía, significa que las estadísticas de esta tabla aún no se generaron.

  5. Para generar estadísticas y adjuntarlas de forma permanente a la tabla como aspectos, haz clic en Generar y publicar. Esto hace que las estadísticas sean indexables, se puedan buscar y sean visibles para otros usuarios de tu organización en el Knowledge Catalog.

    Para generar estadísticas y verlas temporalmente durante tu sesión actual, haz clic en Generar sin publicar. Usa esta opción si solo necesitas un análisis rápido de los datos sin guardar los metadatos en Knowledge Catalog.

    Para obtener más información sobre las diferencias entre los modos Generar y publicar y Generar sin publicar, consulta Modos para generar estadísticas de datos.

  6. Selecciona una región para generar estadísticas y haz clic en Generar.

    Las estadísticas tardan unos minutos en propagarse.

  7. Haz clic en la pestaña Estadísticas y revisa lo siguiente:

    • Descripciones: Son los resúmenes generados por IA que explican el propósito de la tabla y detallan columnas específicas.
    • Consultas de ejemplo: Esta es la lista de consultas en SQL personalizadas diseñadas específicamente para el esquema y el contenido de tu conjunto de datos.
  8. Para ver la consulta en SQL que responde a una pregunta, haz clic en la pregunta.

Revisa las estadísticas generadas para un recurso

Para ver las estadísticas generadas de un recurso, completa los siguientes pasos:

  1. En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.

    Ir a Búsqueda

  2. Busca el recurso para el que deseas ver estadísticas.

  3. En los resultados de la búsqueda, haz clic en el recurso para abrir la página de detalles de la entrada.

  4. Revisa las Descripciones y las Preguntas generadas para el recurso seleccionado.

  5. Para ver los gráficos de relaciones y comprender cómo se conectan los puntos de datos, haz clic en la pestaña Relaciones (vista previa). Solo puedes ver las relaciones a nivel de la tabla, no a nivel del conjunto de datos.

Administra las estadísticas de la tabla

Después de generar y publicar estadísticas de tablas, puedes revisarlas y administrarlas como aspectos de metadatos en Knowledge Catalog. Las estadísticas a nivel de la tabla incluyen descripciones de tablas y columnas, y ejemplos de consultas.

Actualiza las descripciones generadas para una tabla

Solo puedes actualizar las descripciones de tablas y columnas con la API de Dataplex. Para ello, usa el método entries.patch.

Actualiza las consultas generadas para una tabla

Puedes actualizar las consultas generadas para una tabla con la consola Google Cloud y la API de Dataplex.

Console

  1. Busca la tabla para la que deseas actualizar las consultas generadas.

  2. En los resultados de la búsqueda, haz clic en la tabla para abrir la página de detalles de la entrada.

  3. En la sección Consultas, haz clic en Editar.

  4. Actualiza la descripción de la consulta según sea necesario.

  5. Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una búsqueda y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente sigue siendo Agente, es posible que se reemplace la búsqueda durante una regeneración.

  6. Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de consultas para ese aspecto de los metadatos, lo que garantiza que no se pierda ningún cambio manual.

REST

Para actualizar las consultas de una tabla, usa el método entries.patch.

Actualiza las relaciones generadas para una tabla

Solo puedes actualizar las relaciones con la API de Dataplex. Para ello, usa el método entries.patch.

Administra las estadísticas del conjunto de datos

Las estadísticas a nivel del conjunto de datos se enfocan en descripciones generales y consultas en todo el conjunto de datos.

Actualiza las descripciones generadas para un conjunto de datos

Solo puedes actualizar las descripciones de los conjuntos de datos con la API de Dataplex. Para ello, usa el método entries.patch.

Actualiza las consultas generadas para un conjunto de datos

Puedes actualizar las consultas generadas para un conjunto de datos con la Google Cloud consola y la API de Dataplex.

Console

  1. Busca el conjunto de datos para el que deseas actualizar las búsquedas generadas.

  2. En los resultados de la búsqueda, haz clic en el conjunto de datos para abrir la página de detalles de la entrada.

  3. En la sección Consultas, haz clic en Editar.

  4. Actualiza la descripción según sea necesario.

  5. Administra la propiedad: De forma predeterminada, la Fuente se establece en Agente. Si modificas una búsqueda y cambias la fuente a Usuario, las ejecuciones posteriores de generación de estadísticas no anularán tus cambios. Si la Fuente sigue siendo Agente, es posible que se reemplace la búsqueda durante una regeneración.

  6. Administra las anulaciones: Para evitar que se anulen todas las consultas durante una nueva ejecución, puedes establecer la opción Administrado por el usuario en Verdadero. Esto se aplica a todo el conjunto de consultas para ese aspecto de los metadatos, lo que garantiza que no se pierda ningún cambio manual.

REST

Para actualizar las consultas de un conjunto de datos, usa el método entries.patch.

Actualiza los vínculos de entrada generados para un conjunto de datos

Las relaciones que descubren las estadísticas de datos se almacenan como vínculos de entrada entre las entradas de la tabla. Estos vínculos incluyen un aspecto schema-join que describe cómo se conectan las tablas.

Para editar estas relaciones o proporcionar anulaciones manuales, debes usar la API de Dataplex.

Comportamiento de actualización de los vínculos de entrada

Cuando administres relaciones con la API, es importante que comprendas cómo las actualizaciones manuales de la API interactúan con los análisis automatizados en segundo plano para que no sobrescribas datos por accidente.

  • Actualizaciones manuales (comportamiento a nivel de la API): La API de UpdateEntryLink usa el método PATCH para realizar el reemplazo a nivel del aspecto:

    • Reemplazo completo del aspecto: Si incluyes el aspecto schema-join en tu solicitud de actualización, Knowledge Catalog reemplaza todo el aspecto existente por el nuevo que proporcionas.

    • No se realiza la combinación automática: La API no combina automáticamente las entradas nuevas en la lista interna de joins. Si envías una carga útil que contiene solo una unión, se quitarán todas las uniones existentes anteriormente dentro de ese aspecto.

  • Análisis automatizados (comportamiento a nivel del sistema): Los análisis automatizados, como las estadísticas de datos, realizan una lógica de combinación especializada antes de llamar a la API para garantizar que los metadatos de alta certeza se conserven según su fuente:

    • Prioridad de la fuente: Si varias fuentes identifican la misma relación, Knowledge Catalog las prioriza en el siguiente orden:

      1. USER (Ediciones manuales)
      2. TABLE_CONSTRAINTS
      3. QUERY_HISTORY
      4. AGENT (sugerencias de LLM)
    • Actualidad del LLM: Las relaciones derivadas de la fuente AGENT son dinámicas. Si un análisis posterior ya no recomienda la relación, se quitará.

Actualiza los vínculos de entrada

Para ver y modificar los vínculos de entrada, completa los siguientes pasos:

  1. Identifica el vínculo de entrada.

    Antes de actualizar una relación, busca su nombre de recurso enumerando todos los vínculos de entrada que involucran una entrada de tabla específica:

    gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID de tu proyecto de Google Cloud.
    • LOCATION: Es la región en la que se activa el análisis de datos.
    • TABLE_ENTRY_NAME: Es el nombre completo del recurso de la entrada de la tabla de BigQuery (por ejemplo, bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table).
  2. Actualiza el vínculo de entrada.

    Para modificar el aspecto schema-join del vínculo de entrada segmentado, usa el método PATCH:

    gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \
    -d '{
      "aspects": {
        "dataplex-types.global.schema-join": {
          "data": {
            "joins": [
              {
                "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] },
                "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] },
                "type": "JOIN",
                "inferenceSource": "USER"
              }
            ],
            "userManaged": false 
          }
        }
      }
    }'
    

    Reemplaza lo siguiente:

    • ENTRYLINK_ID: Es el ID del vínculo de entrada recuperado en el paso de identificación anterior.
    • DATASET_ID: ID del conjunto de datos de BigQuery
    • SOURCE_TABLE: El nombre de la tabla de origen
    • SOURCE_FIELD: Es el nombre de la columna que se usa para la unión en la tabla de origen.
    • TARGET_TABLE: El nombre de la tabla de destino
    • TARGET_FIELD: Es el nombre de la columna que se usa para la unión en la tabla de destino.

¿Qué sigue?