Un análisis de perfil de datos para datos no estructurados (UnstructuredDataProfileSpec) potenciado por los modelos de Gemini 2.5 Pro de Vertex AI analiza las tablas de objetos de BigQuery existentes para transformar los archivos sin procesar y no estructurados en Cloud Storage (como los PDF) en recursos estructurados y aptos para consultas. Este flujo de trabajo independiente está diseñado para usuarios que ya tienen tablas de objetos de BigQuery y admite la extracción guiada con una instrucción personalizada. Si comienzas con archivos sin procesar en Cloud Storage y deseas un flujo de trabajo de descubrimiento automatizado, consulta Usa el análisis de descubrimiento para datos no estructurados.
En este documento, se describe cómo configurar los permisos necesarios, preparar tu tabla de objetos, crear un análisis de perfil de datos para datos no estructurados con la API de REST, ver las estadísticas generadas, seleccionar perfiles de gráficos y extraer los datos en BigQuery.
Antes de comenzar
Antes de crear un análisis del perfil de datos para datos no estructurados, asegúrate de tener los permisos necesarios y las APIs habilitadas.
Habilita las APIs
Habilita las siguientes APIs en tu proyecto:
dataplex.googleapis.combigquery.googleapis.comaiplatform.googleapis.com(Vertex AI)
Roles necesarios para habilitar las APIs
Para habilitar las APIs, necesitas el rol de IAM de administrador de Service Usage (roles/serviceusage.serviceUsageAdmin), que contiene el permiso serviceusage.services.enable. Obtén más información para otorgar roles.
Roles y permisos requeridos
La inferencia semántica de datos no estructurados es una función avanzada del análisis del perfil de datos que opera en las tablas de objetos de BigQuery. Para configurar y ejecutar el perfilamiento de datos no estructurados, debes cumplir con los permisos básicos para acceder a la tabla de objetos y otorgar roles adicionales para la inferencia semántica en varios agentes de servicio.
Roles de tabla de objetos de referencia
Para acceder a una tabla de objetos de BigQuery y consultarla, asegúrate de que tú y las cuentas de servicio que usa Knowledge Catalog tengan los siguientes roles básicos de Identity and Access Management (IAM) en el proyecto:
- Visualizador de datos de BigQuery (
roles/bigquery.dataViewer) - Usuario de conexión de BigQuery (
roles/bigquery.connectionUser)
Para obtener una lista completa de los requisitos previos de las tablas de objetos, consulta Crea tablas de objetos.
Roles adicionales para la inferencia semántica
Además del acceso básico a la tabla, asegúrate de que tú y las cuentas de servicio tengan los siguientes roles de IAM adicionales.
Resumen de identidades y roles adicionales
| Tipo de identidad | Formato principal típico | Roles de IAM obligatorios | Objetivo principal |
|---|---|---|---|
| Usuario final | Tu cuenta de usuario de Google Cloud |
|
Usas estos roles adicionales para configurar análisis, ver resultados generados por IA, seleccionar perfiles de gráficos y activar la extracción final de datos. |
| Agente de descubrimiento de Dataplex Universal Catalog | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataplex.iam.gserviceaccount.com |
|
Este agente de servicio administrado por Google usa estos roles adicionales para llamar a Vertex AI y generar esquemas y metadatos inferidos. |
| Cuenta de servicio de conexión de BigQuery | Identidad única asociada a tu conexión (por ejemplo, bqcx-<var>PROJECT_NUMBER</var>-<var>ID</var>@gcp-sa-bigquery-condel.iam.gserviceaccount.com) |
|
Conecta BigQuery al almacenamiento externo, lo que permite que BigQuery lea los archivos sin procesar, cree tablas de objetos y ejecute la inferencia de IA sin exponer tus credenciales de usuario personales. |
| Cuenta de servicio de ejecución de canalizaciones (opcional) | Una cuenta de servicio administrada por el usuario |
|
Si eliges extraer datos con una canalización automatizada, esta identidad ejecuta los trabajos en segundo plano para materializar las entidades generadas por IA en tablas de BigQuery. |
| Cuenta de servicio de Dataform predeterminada (opcional) | service-<var>PROJECT_NUMBER</var>@gcp-sa-dataform.iam.gserviceaccount.com |
|
Cuando se usa el método de extracción de canalización, Dataform requiere permiso para suplantar la identidad de tu cuenta de servicio de ejecución de canalización para coordinar el flujo de trabajo. |
Roles y permisos del usuario final
Para garantizar que tu cuenta de usuario tenga los permisos necesarios para crear análisis, ver estadísticas, seleccionar perfiles de gráficos y extraer datos, pídele a tu administrador que le otorgue los siguientes roles de IAM a tu cuenta de usuario en el proyecto:
-
Crea análisis y consulta estadísticas:
- Editor de DataScan de Dataplex (
roles/dataplex.dataScanEditor) - Editor del catálogo de Dataplex (
roles/dataplex.catalogEditor)
- Editor de DataScan de Dataplex (
-
Extrae datos con SQL o una canalización:
- Editor de datos de BigQuery (
roles/bigquery.dataEditor) - Usuario de trabajo de BigQuery (
roles/bigquery.jobUser)
- Editor de datos de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para crear análisis, ver estadísticas, seleccionar perfiles de gráficos y extraer datos. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para crear análisis, ver estadísticas, seleccionar perfiles de gráficos y extraer datos:
-
DataScans:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.list -
dataplex.datascans.update
-
-
Extracción de datos:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.getData -
bigquery.jobs.create
-
Es posible que tu administrador también pueda otorgar estos permisos a tu cuenta de usuario con roles personalizados o con otros roles predefinidos.
Roles y permisos del agente de servicio de Dataplex Discovery
El agente de servicio de descubrimiento de Dataplex es un agente de servicio que necesita acceso para ejecutar análisis y realizar inferencias semánticas con Vertex AI.
Para garantizar que el agente de servicio de descubrimiento de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) tenga los permisos necesarios para ejecutar análisis y realizar inferencias semánticas con Vertex AI, pídele a tu administrador que otorgue los siguientes roles de IAM al agente de servicio de descubrimiento de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) en el proyecto:
-
Todos:
- Usuario de Vertex AI (
roles/aiplatform.user) - Agente de servicio de Dataplex Discovery (
roles/dataplex.discoveryServiceAgent) - Usuario de trabajo de BigQuery (
roles/bigquery.jobUser) - Visualizador de datos de BigQuery (
roles/bigquery.dataViewer)
- Usuario de Vertex AI (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para ejecutar análisis y realizar inferencias semánticas con Vertex AI. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para ejecutar análisis y realizar inferencias semánticas con Vertex AI:
-
Todos:
-
aiplatform.endpoints.predict -
bigquery.datasets.create -
bigquery.datasets.get -
bigquery.tables.get -
bigquery.tables.getData -
storage.buckets.get -
storage.objects.get -
storage.objects.list
-
Es posible que tu administrador también pueda otorgar estos permisos al agente de servicio de detección de Dataplex (por lo general, service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) con roles personalizados o con otros roles predefinidos.
Roles y permisos de la cuenta de servicio de conexión de BigQuery
Una conexión de recursos de Cloud de BigQuery permite que Knowledge Catalog acceda a los datos no estructurados almacenados en Cloud Storage. Cuando creas una conexión, BigQuery crea automáticamente una cuenta de servicio dedicada en tu nombre. Esta cuenta de servicio actúa como la identidad que se usa para conectarse a tu fuente de datos externa.
De forma predeterminada, esta cuenta de servicio no tiene permisos. Debes otorgarle explícitamente los roles de IAM necesarios en los buckets de Cloud Storage que contienen tus datos. Puedes usar una conexión de BigQuery existente o crear una nueva en la misma ubicación que tu bucket de Cloud Storage de origen. Para obtener más información sobre cómo compartir conexiones, consulta Cómo compartir una conexión con los usuarios.
Para garantizar que la cuenta de servicio de conexión de BigQuery (recupera el ID de la sección Información de conexión de los detalles de tu conexión) tenga los permisos necesarios para leer tablas de objetos y ejecutar inferencias, pídele a tu administrador que le otorgue los siguientes roles de IAM a la cuenta de servicio de conexión de BigQuery (recupera el ID de la sección Información de conexión de los detalles de tu conexión):
-
Todos:
- Visualizador de objetos de Storage (
roles/storage.objectViewer) en el bucket que contiene datos no estructurados - Usuario de Vertex AI (
roles/aiplatform.user) en el proyecto
- Visualizador de objetos de Storage (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para leer tablas de objetos y ejecutar inferencias. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para leer tablas de objetos y ejecutar inferencias:
-
Todos:
-
storage.buckets.geten el bucket que contiene datos no estructurados -
storage.objects.geten el bucket que contiene datos no estructurados aiplatform.endpoints.predicten el proyecto
-
Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio de conexión de BigQuery (recupera el ID de la sección Información de conexión de los detalles de la conexión) con roles personalizados o con otros roles predefinidos.
Roles y permisos de la cuenta de servicio de ejecución de la canalización (opcional)
Si eliges extraer los datos inferidos con una canalización automatizada, debes crear o proporcionar una cuenta de servicio dedicada para ejecutar la canalización. Esta cuenta de servicio de ejecución actúa como la identidad que autentica y ejecuta las tareas de análisis y extracción de datos en segundo plano en BigQuery. Además, debes otorgar permiso a la cuenta de servicio predeterminada de Dataform para suplantar la identidad de esta cuenta de servicio de ejecución.
Para garantizar que la cuenta de servicio de ejecución de la canalización tenga los permisos necesarios para extraer las entidades y las relaciones inferidas con una canalización, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio de ejecución de la canalización en el proyecto:
-
Todos:
- Editor de datos de BigQuery (
roles/bigquery.dataEditor) - Usuario de trabajo de BigQuery (
roles/bigquery.jobUser) - Usuario de BigQuery (
roles/bigquery.user) - Usuario de Vertex AI (
roles/aiplatform.user)
- Editor de datos de BigQuery (
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para extraer las entidades y las relaciones inferidas con una canalización. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para extraer las entidades y las relaciones inferidas con una canalización:
-
Todos:
-
bigquery.tables.create -
bigquery.tables.update -
bigquery.tables.get -
bigquery.tables.getData -
bigquery.jobs.create -
aiplatform.endpoints.predict
-
Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio de ejecución de la canalización con roles personalizados o con otros roles predefinidos.
Para garantizar que la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) tenga los permisos necesarios para suplantar la identidad de la cuenta de servicio de ejecución de la canalización, pídele a tu administrador que otorgue los siguientes roles de IAM a la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) en la cuenta de servicio de ejecución de la canalización:
-
Todos:
Creador de tokens de cuenta de servicio (
roles/iam.serviceAccountTokenCreator)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Estos roles predefinidos contienen los permisos necesarios para suplantar la identidad de la cuenta de servicio de ejecución de la canalización. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:
Permisos necesarios
Se requieren los siguientes permisos para suplantar la identidad de la cuenta de servicio de ejecución de la canalización:
-
Todos:
iam.serviceAccounts.getAccessToken
Es posible que tu administrador también pueda otorgar estos permisos a la cuenta de servicio predeterminada de Dataform (service-PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com) con roles personalizados o con otros roles predefinidos.
Prepara tu tabla de objetos
Un análisis de perfil de datos para datos no estructurados opera directamente en una tabla de objetos de BigQuery existente. Antes de crear el análisis, asegúrate de que tus datos no estructurados (como los PDF) estén almacenados en un bucket de Cloud Storage y de que hayas creado una tabla de objetos de BigQuery correspondiente sobre ese bucket con una conexión de recursos de Cloud.
Asegúrate de que tú y la cuenta de servicio de Knowledge Catalog tengan el rol de Usuario de conexión de BigQuery (roles/bigquery.connectionUser) en la conexión que usa la tabla de objetos.
Para obtener más información sobre cómo crear tablas de objetos y configurar la conexión requerida, consulta Crea tablas de objetos.
Crea un análisis de perfil de datos para datos no estructurados
Para extraer estadísticas semánticas de tu tabla de objetos, debes crear un análisis de perfil de datos para los datos no estructurados (UnstructuredDataProfileSpec). Este análisis usa los modelos Gemini 2.5 Pro de Vertex AI para analizar los archivos no estructurados a los que hace referencia tu tabla de objetos y generar metadatos, esquemas y relaciones inferidos.
En esta versión inicial, la creación de análisis solo se admite con la API de REST.
Para crear un análisis del perfil de datos para datos no estructurados con la API de REST, usa el método dataScans.create con un unstructuredDataProfileSpec.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN { "description": "Data profile scan for unstructured data", "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "unstructuredDataProfileSpec": { "customizedPrompt": "", "graphProfilePublishingEnabled": false } }
Reemplaza lo siguiente:
PROJECT_ID: Es el ID de tu proyecto de Google Cloud.LOCATION: La Google Cloud región (debe admitir Gemini 2.5 Pro).DATASCAN: Es el nombre del análisis del perfil de datos.DATASET_IDyTABLE_ID: Son el conjunto de datos de BigQuery y el nombre de la tabla de objetos.
Parámetros de especificación del análisis del perfil de datos
customizedPrompt: Opcional Es una instrucción en lenguaje natural que le indica a Gemini sobre qué entidades específicas o contexto de dominio debe extraer (por ejemplo,Focus extraction on M&A contract terms, identifying purchasing entities, target companies, and agreed escrow amounts.). De forma predeterminada, es una cadena vacía (""). Existe un límite en la longitud máxima de caracteres para las instrucciones personalizadas.graphProfilePublishingEnabled: Opcional Indica si se debe publicar automáticamente el perfil del gráfico inferido en el catálogo cuando se complete el análisis. De forma predeterminada, esfalse.
Knowledge Catalog ejecuta el análisis del perfil de datos y enriquece la entrada del catálogo con metadatos generados por IA. Este proceso suele tardar unos minutos en completarse para los conjuntos de datos estándar.
Ejemplo: Extrae las condiciones del contrato de los PDFs del vendedor
En el siguiente ejemplo, se muestra una solicitud a la API de REST para una empresa minorista de muestra que crea un análisis de perfil de datos (seller-contracts-scan) para analizar los PDFs de acuerdos con vendedores almacenados en una tabla de objetos (seller_agreements_obj_table). Utiliza una instrucción personalizada para indicarle a Gemini que extraiga términos comerciales específicos, como tasas de comisión y condiciones de pago:
POST https://dataplex.googleapis.com/v1/projects/example-retail-project/locations/us-central1/dataScans?dataScanId=seller-contracts-scan
{
"description": "Data profile scan for seller PDF agreements",
"data": {
"resource": "//bigquery.googleapis.com/projects/example-retail-project/datasets/marketplace_operations/tables/seller_agreements_obj_table"
},
"executionSpec": {
"trigger": {
"onDemand": {}
}
},
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
}
}
Ejecuta el análisis de perfil de datos
Si configuraste el análisis del perfil de datos para que se ejecute a pedido, debes activar el análisis de forma manual para analizar tus datos no estructurados.
Para ejecutar un análisis de perfil de datos a pedido con la API de REST, usa el método dataScans.run:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN:run"
Reemplaza lo siguiente:
PROJECT_ID: Es el ID de tu proyecto de Google Cloud.LOCATION: Es la región Google Cloud en la que se encuentra el análisis del perfil de datos.DATASCAN: Es el nombre del análisis del perfil de datos.
Explora los resultados del análisis de perfil de datos
Una vez que se completa el análisis del perfil de datos, Knowledge Catalog genera un perfil de gráfico que contiene los esquemas inferidos para las entidades y las relaciones. Puedes explorar estos resultados con la consola de Google Cloud o la API de REST.
Console
Si habilitaste la publicación de perfiles de gráficos en el catálogo (graphProfilePublishingEnabled: true), puedes ver la tabla de objetos y sus gráficos semánticos inferidos en Knowledge Catalog:
En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.
Pega y busca la tabla de objetos cuyo ID configuraste en el análisis.
En los resultados de la búsqueda, haz clic en la tabla para abrir su página de entrada.
En la pestaña Detalles, en Aspectos, verifica la presencia del aspecto Perfil de gráfico (
dataplex-types.global.graph-profile). Este aspecto contiene los esquemas inferidos para las entidades y las relaciones.Haz clic en la pestaña Estadísticas. En la pestaña Estadísticas, puedes ver la siguiente información:
Extracción semántica: Un banner indica que se detectaron entidades y relaciones extraíbles. Incluye un botón Extract para materializar los datos con SQL o la implementación de canalizaciones.
Descripción. Un resumen legible generado por IA explica el contenido de los datos no estructurados. Describe los nodos (entidades) principales que se descubrieron y cómo se relacionan entre sí a través de las aristas (relaciones).
Canalizaciones: Es una lista de las canalizaciones de extracción de datos implementadas anteriormente y asociadas a este recurso. Puedes ver el nombre visible, la región, la hora de creación y el usuario que creó la canalización.
Entidades y relaciones inferidas: En un gráfico visual interactivo, se muestra la estructura semántica descubierta de tus datos no estructurados. El gráfico contiene nodos que representan entidades distintas, por ejemplo,
RecipeyIngredient, y aristas que representan las conexiones entre ellas, por ejemplo,HasAllergenStatus. Puedes usar la leyenda para filtrar y explorar nodos y aristas específicos.Entidades: Una lista detallada de las entidades principales descubiertas. Puedes expandir cada entidad para ver su descripción generada por IA y su esquema inferido, que incluye nombres de campos, tipos de datos y descripciones de campos.
Relaciones: Una lista detallada de las conexiones descubiertas entre entidades. Puedes expandir cada relación para ver su descripción y el esquema que define cómo se correlacionan las entidades entre sí.
REST
Para recuperar los resultados del perfil de gráfico directamente desde la ejecución del trabajo de análisis con la API de REST, usa el método dataScans.jobs.get con view=full:
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN/jobs/JOB_ID?view=full"
Reemplaza lo siguiente:
PROJECT_ID: Es el ID de tu proyecto de Google Cloud.LOCATION: Es la región Google Cloud en la que se encuentra el análisis del perfil de datos.DATASCAN: Es el nombre del análisis del perfil de datos.JOB_ID: Es el ID único de la ejecución del trabajo de análisis del perfil de datos.
En el siguiente ejemplo, se muestra la respuesta para el trabajo seller-contracts-scan, incluidos los campos unstructuredDataProfileResult y graphProfile:
{
"name": "projects/example-retail-project/locations/us-central1/dataScans/seller-contracts-scan/jobs/123e4567-e89b-12d3-a456-426614174000",
"uid": "123e4567-e89b-12d3-a456-426614174000",
"startTime": "2026-06-08T19:12:03.102Z",
"endTime": "2026-06-08T19:15:28.415Z",
"state": "SUCCEEDED",
"type": "DATA_SCAN_TYPE_UNSTRUCTURED_DATA_PROFILE",
"unstructuredDataProfileSpec": {
"customizedPrompt": "Focus extraction on seller agreement terms, identifying seller business entities, commission rates, payment terms, and termination clauses in the PDFs.",
"graphProfilePublishingEnabled": true
},
"unstructuredDataProfileResult": {
"description": "The unstructured data contains seller agreement PDFs. The primary entities discovered are Seller Entity, Commission Rate, Payment Terms, and Termination Clause, mapped to each other through business agreement relationships.",
"graphProfile": {
"nodeTypes": [
{
"name": "Seller Entity",
"description": "Discovered business entity representing the seller.",
"fields": [
{
"name": "seller_name",
"dataType": "STRING",
"description": "The legal name of the seller.",
"mode": "NULLABLE"
},
{
"name": "address",
"dataType": "STRING",
"description": "The physical or mailing address of the seller.",
"mode": "NULLABLE"
}
]
},
{
"name": "Commission Rate",
"description": "Discovered agreed commission rate terms.",
"fields": [
{
"name": "rate_percentage",
"dataType": "NUMBER",
"description": "The agreed commission percentage.",
"mode": "NULLABLE"
}
]
},
{
"name": "Payment Terms",
"description": "Discovered payment schedule and terms.",
"fields": [
{
"name": "billing_cycle",
"dataType": "STRING",
"description": "The agreed billing frequency or payment schedule.",
"mode": "NULLABLE"
}
]
}
],
"edgeTypes": [
{
"name": "AgreedCommission",
"description": "Defines the commission rate agreed by the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Commission Rate"
},
{
"name": "HasPaymentTerms",
"description": "Defines the payment terms applicable to the seller entity.",
"sourceNodeType": "Seller Entity",
"targetNodeType": "Payment Terms"
}
]
}
}
}
Actualiza las estadísticas inferidas
Las estadísticas inferidas se almacenan en el catálogo de Knowledge Catalog como un aspecto adjunto a la tabla de objetos. Puedes actualizar estas estadísticas de forma manual con la API de REST.
REST
Para actualizar las estadísticas inferidas con la API de REST, sigue estos pasos:
Crea un archivo llamado
payload.jsony agrega el contenido JSON del aspecto que deseas actualizar. Por ejemplo:{ "aspects": { "dataplex-types.global.graph-profile": { "data": { "nodeTypes": [], "edgeTypes": [] } } } }Ejecuta el siguiente comando en la terminal:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d @payload.json \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID?updateMask=aspects"Reemplaza lo siguiente:
PROJECT_ID: El ID de tu proyecto, por ejemplo,example-projectLOCATION: Es la ubicación de la entrada, por ejemplo,us-central1.ENTRY_GROUP_ID: Es el ID del grupo de entradas, por ejemplo,example-entry-group(para las tablas de objetos de BigQuery, usa@bigquery).ENTRY_ID: El ID de la entrada, por ejemplo,example-entry(recupéralo de la pestaña Descripción general de la página de detalles de la entrada en la consola de Google Cloud )
Para obtener más información y muestras de código en otros lenguajes, consulta Cómo actualizar un aspecto de entrada.
Extrae datos a BigQuery
Puedes materializar las entidades y las relaciones inferidas en tablas o vistas estructuradas en BigQuery con SQL o una canalización automatizada.
En la consola de Google Cloud , ve a la página Búsqueda de Knowledge Catalog.
Busca la tabla de objetos que generó tu análisis.
En los resultados de la búsqueda, haz clic en la tabla para abrir su página de entrada.
Haz clic en la pestaña Estadísticas.
En la pestaña Estadísticas, haz clic en Extracción.
Elige uno de los siguientes métodos según tus necesidades de análisis y la escala de tus datos no estructurados:
Extract by SQL: Elige esta opción para realizar análisis rápidos y ad hoc, trabajar con conjuntos de datos pequeños o medianos, o cuando desees un enfoque sin infraestructura con los modelos remotos de BigQuery.
Para realizar la extracción con SQL, sigue estos pasos:
- Selecciona Extraer con SQL.
- En el panel Extraer con SQL, selecciona un conjunto de datos de destino. El conjunto de datos debe estar en la misma ubicación que la fuente.
- Haz clic en Extract.
- En el editor de BigQuery, se abre una consulta completada previamente que utiliza la función
ML.PROCESS_DOCUMENT. Ejecuta la consulta para crear tablas y vistas estándar.
Para obtener más información sobre cómo usar SQL para extraer estadísticas de documentos, consulta Procesa documentos con la función
ML.PROCESS_DOCUMENT.Extracción por canalización: Elige esta opción para el procesamiento de datos a gran escala o cuando necesites una lógica de reintento sólida, un manejo de errores y una orquestación automatizada para controlar grandes volúmenes de documentos.
Para realizar la extracción con una canalización, sigue estos pasos:
- Selecciona Extraer con una canalización.
- En el panel Extraer con canalización, ingresa un nombre visible para la canalización.
- Selecciona una región.
- Selecciona un conjunto de datos de destino. El conjunto de datos debe estar en la misma ubicación que la fuente.
- Haz clic en Extract. Esto crea una canalización de BigQuery que coordina la materialización de datos con Dataform.
- Ejecuta todas las tareas de la canalización para generar vistas estructuradas de nodos y aristas.
Para obtener más información sobre la ejecución de flujos de trabajo de datos, consulta Introducción a Dataform.
Después de extraer y materializar las estadísticas semánticas en BigQuery, puedes realizar las siguientes tareas:
Consulta los datos estructurados. Ejecuta consultas en SQL estándar en las tablas creadas recientemente para analizar las entidades y las relaciones extraídas.
Unir con datos existentes Combina las estadísticas cualitativas extraídas de tus archivos no estructurados con tus conjuntos de datos estructurados existentes de BigQuery (por ejemplo, une los datos de facturas analizados con tus tablas de contabilidad).
Explora las estadísticas de datos. Usa la función Estadísticas de datos en BigQuery Studio para generar automáticamente preguntas en lenguaje natural y consultas de SQL para tus nuevos recursos estructurados.
Analiza con Gemini. Usa Gemini en BigQuery para realizar análisis conversacionales, resumir tendencias o crear paneles en Data Studio basados en los datos extraídos.
¿Qué sigue?
- Obtén información para usar la búsqueda de descubrimiento para datos no estructurados.
- Obtén más información para descubrir datos.
- Lee Acerca de la generación de perfiles de datos.