A partir del 10 de abril de 2026, Dataplex Universal Catalog ahora se llama Knowledge Catalog. Los nombres de la API, la biblioteca cliente, la CLI y IAM no cambiaron. Para obtener más información, consulta Presentamos Google Cloud Knowledge Catalog.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Acerca de las estadísticas de datos no estructurados

Un análisis de perfil de datos para datos no estructurados en Knowledge Catalog transforma datos oscuros o archivos no estructurados, como PDFs en Cloud Storage, en recursos estructurados y consultables en BigQuery. Si bien las herramientas de descubrimiento estándar se limitan a los metadatos a nivel de archivo, como el tamaño y el tipo, un análisis de perfil de datos para datos no estructurados potenciado por los modelos de Vertex AI Gemini analiza el contenido del archivo. Extrae automáticamente el contexto empresarial necesario para fundamentar los agentes de IA y potenciar las estadísticas avanzadas.

Esta automatización elimina la necesidad de analizar documentos de forma manual y de usar código ETL personalizado, lo que te permite descubrir, clasificar y usar datos a los que antes no podías acceder.

Un análisis de perfil de datos para datos no estructurados analiza el contenido de los archivos no estructurados para extraer información y deducir esquemas. Esto es diferente de la función de estadísticas de datos para datos estructurados, que genera descripciones y consultas de SQL basadas en los metadatos de las tablas estructuradas existentes, y de la generación de perfiles de datos estadísticos estándar, que calcula métricas como los recuentos de valores nulos y las distribuciones de valores.

Descubrimiento automatizado y generación de perfiles semánticos

Puedes realizar la generación de perfiles de datos no estructurados con dos flujos de trabajo diferentes, según tu punto de partida:

Durante un análisis de descubrimiento de Cloud Storage: Un análisis de descubrimiento ubica automáticamente tus archivos no estructurados en Cloud Storage y los cataloga en una o varias tablas de objetos en BigQuery para su análisis. Una tabla de objetos es una tabla de solo lectura sobre objetos de datos no estructurados que residen en Cloud Storage. Cuando ejecutas un análisis de descubrimiento con la opción Habilitar la inferencia semántica habilitada, este actúa como el punto de entrada automatizado para la generación de perfiles de datos no estructurados.
Como un análisis de perfil de datos independiente para datos no estructurados: Si ya tienes tablas de objetos de BigQuery existentes, puedes ejecutar un análisis de perfil de datos para datos no estructurados directamente en esas tablas. En este flujo de trabajo independiente, también puedes guiar la extracción proporcionando una instrucción personalizada en la especificación de DataScan.

Cuando se realiza la generación de perfiles de datos no estructurados (ya sea automáticamente durante un análisis de descubrimiento o como un análisis independiente), el sistema registra las tablas de objetos como entradas en Knowledge Catalog. Una entrada representa un recurso de datos para el que capturas metadatos. Cuando se crean varias tablas debido a un análisis de descubrimiento, cada entrada tiene su propia pestaña de estadísticas. Luego, puedes abrir esta entrada para explorar las estadísticas de datos generadas. El sistema realiza las siguientes acciones:

Identifica y agrupa archivos (solo en el análisis de descubrimiento). Identifica y organiza automáticamente los archivos no estructurados en Cloud Storage en tablas de objetos. Estas tablas de objetos son tablas de solo lectura que proporcionan una interfaz estructurada para tus datos no estructurados.
Realiza un análisis de perfil de datos para datos no estructurados. Usa los modelos de Vertex AI Gemini para analizar el contenido de los archivos y comprender su significado y estructura. Esto incluye la inferencia de entidades, que usa la IA generativa para extraer atributos específicos, por ejemplo, Company, Product, o Serial Number, del contenido del archivo. También incluye la extracción de relaciones, que identifica cómo se conectan estas entidades, por ejemplo, Component is_part_of Product, para crear un gráfico semántico. Si ejecutas un análisis de perfil independiente, puedes guiar esta extracción proporcionando una instrucción personalizada en la especificación de DataScan.
Genera esquemas y perfiles de gráficos. Proporciona un esquema relacional sugerido por IA y adjunta un Graph Profile aspecto (dataplex-types.global.graph-profile) a la entrada de catálogo que representa la tabla de objetos. Con los aspectos, puedes capturar metadatos con entradas. Este aspecto de metadatos contiene los esquemas inferidos para las entidades (NodeType) y las relaciones (EdgeType).
Enriquece los metadatos. Completa automáticamente Knowledge Catalog con metadatos generados por IA. Esto hace que los datos se puedan buscar y estén listos para la extracción.

En lugar de diseñar esquemas de bases de datos de forma manual, puedes realizar la extracción de datos con SQL de un solo clic o la organización de canalizaciones. Este proceso materializa las entidades y las relaciones inferidas en formatos estructurados, como tablas o vistas físicas de BigQuery.

Métodos de la API

Puedes configurar, ejecutar y administrar análisis de perfiles de datos para datos no estructurados y sus entradas de catálogo resultantes con los siguientes métodos de la API de REST:

Método de la API	Descripción
`projects.locations.dataScans.create`	Crea un análisis de descubrimiento (con `dataDiscoverySpec`) o un análisis de perfil de datos independiente para datos no estructurados (con `unstructuredDataProfileSpec`).
`projects.locations.dataScans.run`	Activa un trabajo de análisis de perfil de datos o de análisis de descubrimiento a pedido para analizar archivos no estructurados y generar estadísticas semánticas.
`projects.locations.dataScans.get`	Recupera los detalles de configuración y los resultados del trabajo más recientes de un análisis de perfil de datos existente.
`projects.locations.dataScans.jobs.list`	Muestra los trabajos de análisis históricos para un análisis de perfil de datos o un análisis de descubrimiento específicos.
`projects.locations.dataScans.jobs.get`	Recupera los registros y los resultados de ejecución detallados para un trabajo de análisis de perfil de datos específico.
`projects.locations.entryGroups.entries.get`	Recupera una entrada de catálogo que representa una tabla de objetos, incluidos sus aspectos de metadatos generados por IA adjuntos (como `GraphProfile`).
`projects.locations.entryGroups.entries.patch`	Actualiza una entrada de catálogo para adjuntar, modificar o seleccionar aspectos de metadatos (como `dataplex-types.global.graph-profile`).

Casos de uso

Puedes usar análisis de perfiles de datos para datos no estructurados para varios fines en diferentes dominios de la industria, incluidos los siguientes:

Configuración de canalizaciones y normalización sin ETL. Facilita la extracción de datos de Cloud Storage a BigQuery reemplazando los analizadores personalizados por sugerencias de esquemas automatizadas y la implementación con un solo clic para materializar los datos en tablas, vistas o gráficos semánticos de BigQuery.

Por ejemplo, en el comercio electrónico y la venta minorista, un marketplace puede normalizar automáticamente las facturas de proveedores y los pedidos de compra en cientos de diseños de PDF diferentes en un esquema de BigQuery cohesivo y unificado (que asigna Unit Pr., Price/Pkg y Item Cost a una sola columna Unit_Price) sin escribir código de análisis personalizado. En el sector de la salud, los bioestadísticos pueden transferir protocolos de ensayos clínicos de varios centros y formularios de informes de casos (CRF) a tablas estructuradas para realizar un análisis de cohorte rápido.
Clasificación y validación de contenido. Agrupa automáticamente los datos oscuros en recursos que se pueden buscar y que están enriquecidos con metadatos generados por IA, lo que permite a los administradores de datos realizar la validación y la supervisión de las entidades extraídas con intervención humana a gran escala.

Por ejemplo, en los servicios financieros, un banco de inversión que realiza la diligencia debida de fusiones y adquisiciones puede clasificar automáticamente grandes repositorios de contratos históricos y acuerdos de crédito, y extraer entidades legales complejas (Contracting_Parties, Indemnity_Cap, Governing_Law). Los administradores de datos pueden explorar el gráfico de conocimiento visual en la pestaña Estadísticas para identificar responsabilidades de alto riesgo antes de exportar datos a informes ejecutivos.
Fundamentación de agentes de IA. Fundamenta los agentes de generación mejorada por recuperación (RAG) con gráficos verificados. Esto proporciona una "cadena de trazabilidad" clara que conecta los archivos sin procesar con la lógica empresarial estructurada, lo que reduce las alucinaciones y permite que los agentes de IA naveguen por las uniones de varias tablas sin ambigüedades.

Por ejemplo, en las operaciones industriales y de fabricación, una empresa de maquinaria pesada puede extraer relaciones de equipos de décadas de registros de mantenimiento de campo no estructurados y de informes de incidentes. Cuando un técnico en las instalaciones le pregunta a un agente de IA conversacional cómo resolver una caída de presión hidráulica no característica, el agente usa el gráfico de relaciones verificadas (Error_Code indicates_failure Hydraulic_Valve) para entregar un plan de reparación preciso y paso a paso que cita el informe de incidentes histórico exacto.

Limitaciones

Revisa las siguientes limitaciones antes de usar análisis de perfiles de datos para datos no estructurados:

Formatos admitidos. Si bien los análisis de descubrimiento identifican y agrupan automáticamente varios tipos de archivos no estructurados en tablas de objetos de BigQuery, el motor de inferencia semántica para los análisis de perfiles de datos para datos no estructurados está optimizado principalmente para documentos PDF.
Ubicaciones. Los análisis de perfiles de datos para datos no estructurados solo están disponibles en ubicaciones que admiten modelos de Vertex AI Gemini 2.5 Pro (por ejemplo, us-central1, europe-west1, asia-southeast1). Para obtener una lista de las regiones admitidas, consulta la sección Regiones admitidas en Gemini 2.5 Pro. Los análisis creados en regiones no admitidas muestran errores de validación o ejecución.
Alcance de los recursos. Los análisis de perfiles de datos para datos no estructurados operan exclusivamente en tablas de objetos de BigQuery. No admiten tablas estructuradas estándar de BigQuery, tablas externas sobre datos estructurados ni vistas de BigQuery.

Precios

Durante la fase de versión preliminar pública, los análisis de perfiles de datos para datos no estructurados están disponibles para la experimentación y las pruebas según las condiciones promocionales especializadas:

Inferencia semántica. No se cobra por usar los modelos de Vertex AI Gemini para extraer información semántica y deducir perfiles de gráficos durante los análisis de descubrimiento durante el período de la versión preliminar.
Costos de los recursos subyacentes. Se aplican cargos estándar por los recursos necesarios para almacenar y procesar tus datos:
- Knowledge Catalog
  - Los análisis de descubrimiento se facturan según los SKUs de procesamiento Premium de Knowledge Catalog (horas de DCU) para el análisis y la agrupación de referencia de archivos no estructurados. Para obtener más información, consulta los precios de Knowledge Catalog.
  - Los aspectos de metadatos generados por IA, incluidos los perfiles de gráficos, generan cargos estándar de almacenamiento de catálogo de Knowledge Catalog.
- BigQuery y Dataform
  - Si usas el método de extracción de canalizaciones, se aplican los cargos estándar por la ejecución de Dataform y los trabajos de BigQuery.
  - Si usas el método SQL, se aplican los cargos estándar de BigQuery ML (ML.PROCESS_DOCUMENT) y las tarifas de procesamiento de consultas de BigQuery.
  - Cualquier dato materializado en BigQuery, incluidas las tablas de objetos, los metadatos inferidos y las entidades extraídas, genera cargos estándar de almacenamiento y consulta de BigQuery. Para obtener más información, consulta los precios de BigQuery.

Las estructuras de facturación oficiales y dedicadas para los análisis de perfiles de datos para datos no estructurados y la inferencia semántica comienzan con la disponibilidad general (DG).

Cuotas

Las cuotas estándar de recursos y de la API de DataScan se aplican a cada trabajo de análisis de descubrimiento o de análisis de perfil de datos individual. Una cuota específica rige el volumen de inferencia semántica: las ejecuciones diarias totales de análisis de perfiles de datos para datos no estructurados en tablas de objetos de BigQuery se limitan a 140 ejecuciones por proyecto por día.

Cuando se realiza la generación de perfiles de datos no estructurados durante un análisis de descubrimiento, también se aplican los límites de la cantidad de tablas que admite un análisis de descubrimiento. Para obtener más información, consulta Cuotas y límites de BigQuery.

¿Qué sigue?

Obtén información para usar el análisis de descubrimiento para datos no estructurados datos.
Obtén información para usar el perfil de datos para datos no estructurados.
Obtén más información sobre el descubrimiento de datos.
Lee Acerca de la generación de perfiles de datos.