A partir del 10 de abril de 2026, Dataplex Universal Catalog ahora se llama Knowledge Catalog. Los nombres de la API, la biblioteca cliente, la CLI y IAM no cambiaron. Para obtener más información, consulta Presentamos Google Cloud Knowledge Catalog.

Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Usa el perfil de datos para los datos no estructurados

Un análisis de perfil de datos para datos no estructurados (UnstructuredDataProfileSpec) potenciado por los modelos de Gemini 2.5 Pro de Vertex AI analiza las tablas de objetos de BigQuery existentes para transformar los archivos sin procesar y no estructurados en Cloud Storage (como los PDFs) en recursos estructurados y aptos para consultas. Este flujo de trabajo independiente está diseñado para usuarios que ya tienen tablas de objetos de BigQuery y admite la extracción guiada con una instrucción personalizada. Si comienzas con archivos sin procesar en Cloud Storage y deseas un flujo de trabajo de descubrimiento automatizado, consulta Usa el análisis de descubrimiento para datos no estructurados.

En este documento, se describe cómo configurar los permisos necesarios, preparar tu tabla de objetos, crear un análisis del perfil de datos para datos no estructurados con la API de REST, ver el resumen de estadísticas generado, seleccionar perfiles de gráficos y extraer los datos en BigQuery.

Antes de comenzar

Antes de crear un análisis del perfil de datos para datos no estructurados, asegúrate de tener los permisos necesarios y las APIs habilitadas.

Habilita las APIs

Habilita las siguientes APIs en tu proyecto:

dataplex.googleapis.com
bigquery.googleapis.com
aiplatform.googleapis.com (Vertex AI)

Roles necesarios para habilitar las APIs

Para habilitar APIs, necesitas el permiso serviceusage.services.enable. Si creaste el proyecto, es probable que ya tengas este permiso a través del rol de propietario (roles/owner). De lo contrario, puedes obtener este permiso a través del rol de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin). Obtén más información para otorgar roles.

Habilitar las API

Roles y permisos requeridos

La inferencia semántica de datos no estructurados es una función avanzada del análisis de perfil de datos que opera en tablas de objetos de BigQuery. Para configurar y ejecutar el perfilamiento de datos no estructurados, debes cumplir con los permisos básicos para acceder a la tabla de objetos y otorgar roles adicionales para la inferencia semántica en varios agentes de servicio.

Roles de tabla de objetos de referencia

Para acceder a una tabla de objetos de BigQuery y consultarla, asegúrate de que tú y las cuentas de servicio que usa Knowledge Catalog tengan los siguientes roles básicos de Identity and Access Management (IAM) en el proyecto:

Visualizador de datos de BigQuery (roles/bigquery.dataViewer)
Usuario de conexión de BigQuery (roles/bigquery.connectionUser)

Para obtener una lista completa de los requisitos previos de las tablas de objetos, consulta Crea tablas de objetos.

Roles adicionales para la inferencia semántica

Además del acceso básico a la tabla, asegúrate de que tú y las cuentas de servicio tengan los siguientes roles de IAM adicionales.

Resumen de identidades y roles adicionales

Tipo de identidad	Formato principal típico	Roles de IAM obligatorios	Objetivo principal
Usuario final	Tu cuenta de usuario de Google Cloud	Editor de DataScan de Dataplex Editor del catálogo de Dataplex Editor de datos de BigQuery Usuario de trabajo de BigQuery	Usas estos roles adicionales para configurar análisis, ver resultados generados por IA, seleccionar perfiles de gráficos y activar la extracción final de datos.
Agente de descubrimiento de Dataplex Universal Catalog	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com`	Usuario de Agent Platform Usuario de trabajo de BigQuery Visualizador de datos de BigQuery	Este agente de servicio administrado por Google usa estos roles adicionales para llamar a Vertex AI y generar esquemas y metadatos inferidos.
Cuenta de servicio de conexión de BigQuery	Identidad única asociada a tu conexión (por ejemplo, `bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com`)	Visualizador de objetos de Storage (en el bucket de origen) Usuario de Agent Platform (en el proyecto)	Conecta BigQuery al almacenamiento externo, lo que permite que BigQuery lea los archivos sin procesar, cree tablas de objetos y ejecute la inferencia de IA sin exponer tus credenciales de usuario personales.
Cuenta de servicio de ejecución de canalización (opcional)	Una cuenta de servicio administrada por el usuario	Editor de datos de BigQuery Usuario de trabajo de BigQuery Usuario de BigQuery Usuario de Agent Platform	Si eliges extraer datos con una canalización automatizada, esta identidad ejecuta los trabajos en segundo plano para materializar las entidades generadas por IA en tablas de BigQuery.
Cuenta de servicio de Dataform predeterminada (opcional)	`service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com`	Creador de tokens de cuenta de servicio (se otorga en la cuenta de servicio de ejecución de la canalización)	Cuando se usa el método de extracción de canalización, Dataform requiere permiso para suplantar la identidad de tu cuenta de servicio de ejecución de canalización para coordinar el flujo de trabajo.

Roles y permisos del usuario final

Para garantizar que tu cuenta de usuario tenga los permisos necesarios para crear análisis, ver estadísticas, seleccionar perfiles de gráficos y extraer datos, pídele a tu administrador que le otorgue los siguientes roles de IAM a tu cuenta de usuario en el proyecto:

Crea análisis y consulta estadísticas:
- Editor de DataScan de Dataplex (roles/dataplex.dataScanEditor)
- Editor del catálogo de Dataplex (roles/dataplex.catalogEditor)
Extrae datos con SQL o una canalización:
- Editor de datos de BigQuery (roles/bigquery.dataEditor)
- Usuario de trabajo de BigQuery (roles/bigquery.jobUser)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para crear análisis, ver estadísticas, seleccionar perfiles de gráficos y extraer datos. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para crear análisis, ver estadísticas, seleccionar perfiles de gráficos y extraer datos:

DataScans:
- dataplex.datascans.create
- dataplex.datascans.get
- dataplex.datascans.getData
- dataplex.datascans.list
- dataplex.datascans.update
Extracción de datos:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.getData
- bigquery.jobs.create

Es posible que tu administrador también pueda otorgar estos permisos a tu cuenta de usuario con roles personalizados o con otros roles predefinidos.

Roles y permisos del agente de servicio de Dataplex Discovery

El agente de servicio de descubrimiento de Dataplex es un agente de servicio que necesita acceso para ejecutar análisis y realizar inferencias semánticas con Vertex AI.

Para garantizar que el agente de servicio de descubrimiento de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) tenga los permisos necesarios para ejecutar análisis y realizar inferencias semánticas con Vertex AI, pídele a tu administrador que otorgue los siguientes roles de IAM al agente de servicio de descubrimiento de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) en el proyecto:

Importante: Debes otorgar estos roles al agente de servicio de detección de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com), no a tu cuenta de usuario. Si no se otorgan los roles a la principal correcta, es posible que se produzcan errores de permisos.

Todos:
- Usuario de Agent Platform (roles/aiplatform.user)
- Agente de servicio de Dataplex Discovery (roles/dataplex.discoveryServiceAgent)
- Usuario de trabajo de BigQuery (roles/bigquery.jobUser)
- Visualizador de datos de BigQuery (roles/bigquery.dataViewer)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para ejecutar análisis y realizar inferencias semánticas con Vertex AI. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para ejecutar análisis y realizar inferencias semánticas con Vertex AI:

Todos:
- aiplatform.endpoints.predict
- bigquery.datasets.create
- bigquery.datasets.get
- bigquery.tables.get
- bigquery.tables.getData
- storage.buckets.get
- storage.objects.get
- storage.objects.list

Es posible que tu administrador también pueda otorgar estos permisos al agente de servicio de detección de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) con roles personalizados o con otros roles predefinidos.

Roles y permisos de la cuenta de servicio de conexión de BigQuery

Una conexión a recursos de Cloud de BigQuery permite que Knowledge Catalog acceda a los datos no estructurados almacenados en Cloud Storage. Cuando creas una conexión, BigQuery crea automáticamente una cuenta de servicio dedicada en tu nombre. Esta cuenta de servicio actúa como la identidad que se usa para conectarse a tu fuente de datos externa.

De forma predeterminada, esta cuenta de servicio no tiene ningún permiso. Debes otorgar explícitamente a esta cuenta de servicio los roles de IAM necesarios en los buckets de Cloud Storage que contienen tus datos. Puedes usar una conexión de BigQuery existente o crear una nueva en la misma ubicación que tu bucket de Cloud Storage de origen. Para obtener más información sobre cómo compartir conexiones, consulta Comparte una conexión con los usuarios.

Para garantizar que la cuenta de servicio de conexión de BigQuery (recupera el ID de la sección Información de conexión de los detalles de tu conexión) tenga los permisos necesarios para leer tablas de objetos y ejecutar inferencias, pídele a tu administrador que le otorgue los siguientes roles de IAM a la cuenta de servicio de conexión de BigQuery (recupera el ID de la sección Información de conexión de los detalles de tu conexión):

Todos:
- Visualizador de objetos de Storage (roles/storage.objectViewer) en el bucket que contiene datos no estructurados
- Usuario de Agent Platform (roles/aiplatform.user) en el proyecto

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para leer tablas de objetos y ejecutar inferencias. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para leer tablas de objetos y ejecutar inferencias:

Todos:
- storage.buckets.get en el bucket que contiene datos no estructurados
- storage.objects.get en el bucket que contiene datos no estructurados
- aiplatform.endpoints.predict en el proyecto

Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio de conexión de BigQuery (recupera el ID de la sección Información de conexión de los detalles de tu conexión) con roles personalizados o con otros roles predefinidos.

Roles y permisos de la cuenta de servicio de ejecución de la canalización (opcional)

Si eliges extraer los datos inferidos con una canalización automatizada, debes crear o proporcionar una cuenta de servicio dedicada para ejecutar la canalización. Esta cuenta de servicio de ejecución actúa como la identidad que autentica y ejecuta las tareas de análisis y extracción de datos en segundo plano en BigQuery. Además, debes otorgar permiso a la cuenta de servicio predeterminada de Dataform para suplantar la identidad de esta cuenta de servicio de ejecución.

Para garantizar que la cuenta de servicio de ejecución de la canalización tenga los permisos necesarios para extraer las entidades y las relaciones inferidas con una canalización, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio de ejecución de la canalización en el proyecto:

Todos:
- Editor de datos de BigQuery (roles/bigquery.dataEditor)
- Usuario de trabajo de BigQuery (roles/bigquery.jobUser)
- Usuario de BigQuery (roles/bigquery.user)
- Usuario de Agent Platform (roles/aiplatform.user)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para extraer las entidades y las relaciones inferidas con una canalización. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para extraer las entidades y las relaciones inferidas con una canalización:

Todos:
- bigquery.tables.create
- bigquery.tables.update
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.jobs.create
- aiplatform.endpoints.predict

Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio de ejecución de la canalización con roles personalizados o con otros roles predefinidos.

Para garantizar que la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) tenga los permisos necesarios para suplantar la identidad de la cuenta de servicio de ejecución de la canalización, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) en la cuenta de servicio de ejecución de la canalización:

Importante: Debes otorgar estos roles a la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com), no a tu cuenta de usuario. Si no se otorgan los roles a la principal correcta, es posible que se produzcan errores de permisos.

Todos: Creador de tokens de cuenta de servicio (roles/iam.serviceAccountTokenCreator)

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Estos roles predefinidos contienen los permisos necesarios para suplantar la identidad de la cuenta de servicio de ejecución de la canalización. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para suplantar la identidad de la cuenta de servicio de ejecución de la canalización:

Todos: iam.serviceAccounts.getAccessToken

Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) con roles personalizados o con otros roles predefinidos.

Prepara tu tabla de objetos

Un análisis de perfil de datos para datos no estructurados opera directamente en una tabla de objetos de BigQuery existente. Antes de crear el análisis, asegúrate de que tus datos no estructurados (como los PDF) estén almacenados en un bucket de Cloud Storage y de que hayas creado una tabla de objetos de BigQuery correspondiente sobre ese bucket con una conexión a recursos de Cloud.

Asegúrate de que tú y la cuenta de servicio de Knowledge Catalog tengan el rol de Usuario de conexión de BigQuery (roles/bigquery.connectionUser) en la conexión que usa la tabla de objetos.

Para obtener más información sobre cómo crear tablas de objetos y configurar la conexión requerida, consulta Crea tablas de objetos.

Crea un análisis de perfil de datos para datos no estructurados

Para extraer estadísticas semánticas de tu tabla de objetos, debes crear un análisis de perfil de datos no estructurados (UnstructuredDataProfileSpec). Este análisis usa los modelos Gemini 2.5 Pro de Vertex AI para analizar los archivos no estructurados a los que hace referencia tu tabla de objetos y generar metadatos, esquemas y relaciones inferidos.

En esta versión inicial, la creación de análisis solo se admite con la API de REST.

Para crear un análisis del perfil de datos para datos no estructurados con la API de REST, usa el método dataScans.create con un unstructuredDataProfileSpec.

POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN
{
  "description": "Data profile scan for unstructured data",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "",
    "graphProfilePublishingEnabled": false
  }
}

Reemplaza lo siguiente:

PROJECT_ID: Es el ID de tu proyecto de Google Cloud.
LOCATION: La Google Cloud región (debe admitir Gemini 2.5 Pro).
DATASCAN: Es el nombre del análisis del perfil de datos.
DATASET_ID y TABLE_ID: Son el conjunto de datos de BigQuery y el nombre de la tabla de objetos.

Parámetros de especificación del análisis del perfil de datos

customizedPrompt: Opcional Es una instrucción en lenguaje natural que le indica a Gemini sobre qué entidades específicas o contexto de dominio debe extraer (por ejemplo, Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). De forma predeterminada, es una cadena vacía (""). Existe un límite en la longitud máxima de caracteres para las instrucciones personalizadas.
graphProfilePublishingEnabled: Opcional Indica si se debe publicar automáticamente el perfil del gráfico inferido en el catálogo cuando se complete el análisis. De forma predeterminada, es false.

Knowledge Catalog ejecuta el análisis del perfil de datos y enriquece la entrada del catálogo con metadatos generados por IA. Este proceso suele tardar unos minutos para los conjuntos de datos estándar.

Ejemplo: Extrae las condiciones del contrato de los PDFs del vendedor

En el siguiente ejemplo, se muestra una solicitud a la API de REST para una empresa minorista de muestra que crea un análisis de perfil de datos (seller-contracts-scan) para analizar los PDFs de los acuerdos con los vendedores almacenados en una tabla de objetos (seller_agreements_obj_table). Utiliza una instrucción personalizada para indicarle a Gemini que extraiga términos comerciales específicos, como las tasas de comisión y las condiciones de pago:

POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
  "description": "Data profile scan for seller PDF agreements",
  "data": {
    "resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
  },
  "executionSpec": {
    "trigger": {
      "onDemand": {}
    }
  },
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  }
}

Ejecuta el análisis del perfil de datos

Si configuraste el análisis del perfil de datos para que se ejecute a pedido, debes activar el análisis de forma manual para analizar tus datos no estructurados.

Para ejecutar un análisis de perfil de datos a pedido con la API de REST, usa el método dataScans.run:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"

Reemplaza lo siguiente:

PROJECT_ID: Es el ID de tu proyecto de Google Cloud.
LOCATION: Es la región Google Cloud en la que se encuentra el análisis del perfil de datos.
DATASCAN: Es el nombre del análisis del perfil de datos.

Explora los resultados del análisis de perfil de datos

Una vez que se completa el análisis del perfil de datos, Knowledge Catalog genera un perfil de gráfico que contiene los esquemas inferidos para las entidades y las relaciones. Puedes explorar estos resultados con la consola de Google Cloud o la API de REST.

Console

Si habilitaste la publicación del perfil de gráfico en el catálogo (graphProfilePublishingEnabled: true), puedes ver la tabla de objetos y sus gráficos semánticos inferidos en Knowledge Catalog:

En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.

Ir a Búsqueda
Pega y busca la tabla de objetos cuyo ID configuraste en el análisis.
En los resultados de la búsqueda, haz clic en la tabla para abrir su página de entrada.
En la pestaña Detalles, en Aspectos, verifica la presencia del aspecto Perfil de gráfico (dataplex-types.global.graph-profile). Este aspecto contiene los esquemas inferidos para las entidades y las relaciones.
Haz clic en la pestaña Estadísticas. En la pestaña Estadísticas, puedes ver la siguiente información:
- Extracción semántica: Un banner indica que se detectaron entidades y relaciones extraíbles. Incluye un botón Extract para materializar los datos con SQL o la implementación de canalizaciones.
- Descripción. Un resumen legible generado por IA explica el contenido de los datos no estructurados. Describe los nodos (entidades) principales que se descubrieron y cómo se relacionan entre sí a través de las aristas (relaciones).
- Canalizaciones. Es una lista de las canalizaciones de extracción de datos implementadas anteriormente y asociadas a este recurso. Puedes ver el nombre visible, la región, la hora de creación y el usuario que creó la canalización.
- Entidades y relaciones inferidas. En un gráfico visual interactivo, se muestra la estructura semántica descubierta de tus datos no estructurados. El gráfico contiene nodos que representan entidades distintas, por ejemplo, Recipe y Ingredient, y aristas que representan las conexiones entre ellas, por ejemplo, HasAllergenStatus. Puedes usar la leyenda para filtrar y explorar nodos y aristas específicos.
- Entidades. Es una lista detallada de las entidades principales descubiertas. Puedes expandir cada entidad para ver su descripción generada por IA y su esquema inferido, que incluye nombres de campos, tipos de datos y descripciones de campos.
- Relaciones. Es una lista detallada de las conexiones descubiertas entre entidades. Puedes expandir cada relación para ver su descripción y el esquema que define cómo se asignan las entidades entre sí.

REST

Para recuperar los resultados del perfil de gráfico directamente desde la ejecución del trabajo de análisis con la API de REST, usa el método dataScans.jobs.get con view=full:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"

Reemplaza lo siguiente:

PROJECT_ID: Es el ID de tu proyecto de Google Cloud.
LOCATION: Es la región Google Cloud en la que se encuentra el análisis del perfil de datos.
DATASCAN: Es el nombre del análisis del perfil de datos.
JOB_ID: Es el ID único de la ejecución del trabajo de análisis del perfil de datos.

En el siguiente ejemplo, se muestra la respuesta para el trabajo seller-contracts-scan, incluidos los campos unstructuredDataProfileResult y graphProfile:

{
  "name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
  "uid": "123e4567-e89b-12d3-a456-426614174000",
  "startTime": "2026-06-08T19:12:03.102Z",
  "endTime": "2026-06-08T19:15:28.415Z",
  "state": "SUCCEEDED",
  "type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
  "unstructuredDataProfileSpec": {
    "customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
    "graphProfilePublishingEnabled": true
  },
  "unstructuredDataProfileResult": {
    "description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
    "graphProfile": {
      "nodeTypes": [
        {
          "name": "Seller Entity",
          "description": "Discovered business entity representing the seller.",
          "fields": [
            {
              "name": "seller_name",
              "dataType": "STRING",
              "description": "The legal name of the seller.",
              "mode": "NULLABLE"
            },
            {
              "name": "address",
              "dataType": "STRING",
              "description": "The physical or mailing address of the seller.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Commission Rate",
          "description": "Discovered agreed commission rate terms.",
          "fields": [
            {
              "name": "rate_percentage",
              "dataType": "NUMBER",
              "description": "The agreed commission percentage.",
              "mode": "NULLABLE"
            }
          ]
        },
        {
          "name": "Payment Terms",
          "description": "Discovered payment schedule and terms.",
          "fields": [
            {
              "name": "billing_cycle",
              "dataType": "STRING",
              "description": "The agreed billing frequency or payment schedule.",
              "mode": "NULLABLE"
            }
          ]
        }
      ],
      "edgeTypes": [
        {
          "name": "AgreedCommission",
          "description": "Defines the commission rate agreed by the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Commission Rate"
        },
        {
          "name": "HasPaymentTerms",
          "description": "Defines the payment terms applicable to the seller entity.",
          "sourceNodeType": "Seller Entity",
          "targetNodeType": "Payment Terms"
        }
      ]
    }
  }
}

Actualiza las estadísticas inferidas

Las estadísticas inferidas se almacenan en el catálogo de Knowledge Catalog como un aspecto adjunto a la tabla de objetos. Puedes actualizar estas estadísticas de forma manual con la API de REST.

REST

Para actualizar las estadísticas inferidas con la API de REST, sigue estos pasos:

Crea un archivo llamado payload.json y agrega el contenido JSON del aspecto que deseas actualizar. Por ejemplo:

{
  "aspects": {
    "dataplex-types.global.graph-profile": {
      "data": {
        "nodeTypes": [],
        "edgeTypes": []
      }
    }
  }
}

Ejecuta el siguiente comando en la terminal:
```
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d @payload.json \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"
```
Reemplaza lo siguiente:
- PROJECT_ID: El ID de tu proyecto, por ejemplo, example-project
- LOCATION: Es la ubicación de la entrada, por ejemplo, us-central1.
- ENTRY_GROUP_ID: Es el ID del grupo de entradas, por ejemplo, example-entry-group (para las tablas de objetos de BigQuery, usa @bigquery).
- ENTRY_ID: El ID de la entrada, por ejemplo, example-entry (recupéralo de la pestaña Descripción general de la página de detalles de la entrada en la consola de Google Cloud )

Para obtener más información y muestras de código en otros lenguajes, consulta Cómo actualizar un aspecto de entrada.

Extrae datos a BigQuery

Puedes materializar las entidades y las relaciones inferidas en tablas o vistas estructuradas en BigQuery con SQL o una canalización automatizada.

En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.

Ir a Búsqueda
Busca la tabla de objetos que generó tu análisis.
En los resultados de la búsqueda, haz clic en la tabla para abrir su página de entrada.
Haz clic en la pestaña Estadísticas.
En la pestaña Estadísticas, haz clic en Extracción.
Elige uno de los siguientes métodos según tus necesidades de análisis y la escala de tus datos no estructurados:
- Extract by SQL: Elige esta opción para realizar análisis rápidos y ad hoc, trabajar con conjuntos de datos pequeños o medianos, o cuando desees un enfoque sin infraestructura con modelos remotos de BigQuery.
  
  Para realizar la extracción con SQL, sigue estos pasos:
  1. Selecciona Extraer con SQL.
  2. En el panel Extraer con SQL, selecciona un conjunto de datos de destino. El conjunto de datos debe estar en la misma ubicación que la fuente.
  3. Haz clic en Extract.
  4. En el editor de BigQuery, se abre una consulta completada previamente que utiliza la función ML.PROCESS_DOCUMENT. Ejecuta la consulta para crear tablas y vistas estándar.
  Para obtener más información sobre cómo usar SQL para extraer estadísticas de documentos, consulta Procesa documentos con la función ML.PROCESS_DOCUMENT.
- Extracción por canalización: Elige esta opción para el procesamiento de datos a gran escala o cuando necesites una lógica de reintento sólida, un manejo de errores y una orquestación automatizada para controlar grandes volúmenes de documentos.
  
  Para realizar la extracción con una canalización, sigue estos pasos:
  1. Selecciona Extraer con una canalización.
  2. En el panel Extraer con canalización, ingresa un nombre visible para la canalización.
  3. Selecciona una región.
  4. Selecciona un conjunto de datos de destino. El conjunto de datos debe estar en la misma ubicación que la fuente.
  5. Haz clic en Extract. Esto crea una canalización de BigQuery que coordina la materialización de datos con Dataform.
  6. Ejecuta todas las tareas de la canalización para generar vistas estructuradas de nodos y aristas.
  Para obtener más información sobre la ejecución de flujos de trabajo de datos, consulta Introducción a Dataform.

Después de extraer y materializar las estadísticas semánticas en BigQuery, puedes realizar las siguientes tareas:

Consulta los datos estructurados. Ejecuta consultas en SQL estándar en las tablas creadas recientemente para analizar las entidades y las relaciones extraídas.
Unir con datos existentes Combina las estadísticas cualitativas extraídas de tus archivos no estructurados con tus conjuntos de datos estructurados existentes de BigQuery (por ejemplo, une los datos de facturas analizados con tus tablas de contabilidad).
Explora las estadísticas de datos. Usa la función Estadísticas de datos en BigQuery Studio para generar automáticamente preguntas en lenguaje natural y consultas de SQL para tus nuevos recursos estructurados.
Analiza con Gemini. Usa Gemini en BigQuery para realizar análisis conversacionales, resumir tendencias o crear paneles en Data Studio basados en los datos extraídos.

¿Qué sigue?

Obtén información para usar la búsqueda de descubrimiento para datos no estructurados.
Obtén más información para descubrir datos.
Lee Acerca de la generación de perfiles de datos.

Usa el perfil de datos para los datos no estructurados Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Antes de comenzar

Habilita las APIs

Roles y permisos requeridos

Roles de tabla de objetos de referencia

Roles adicionales para la inferencia semántica

Resumen de identidades y roles adicionales

Roles y permisos del usuario final

Permisos necesarios

Roles y permisos del agente de servicio de Dataplex Discovery

Permisos necesarios

Roles y permisos de la cuenta de servicio de conexión de BigQuery

Permisos necesarios

Roles y permisos de la cuenta de servicio de ejecución de la canalización (opcional)

Permisos necesarios

Permisos necesarios

Prepara tu tabla de objetos

Crea un análisis de perfil de datos para datos no estructurados

Parámetros de especificación del análisis del perfil de datos

Ejemplo: Extrae las condiciones del contrato de los PDFs del vendedor

Ejecuta el análisis del perfil de datos

Explora los resultados del análisis de perfil de datos

Console

REST

Actualiza las estadísticas inferidas

REST

Extrae datos a BigQuery

¿Qué sigue?

Usa el perfil de datos para los datos no estructurados