Las estadísticas de datos para los datos no estructurados en Knowledge Catalog transforman los datos ocultos o los archivos no estructurados, como los PDF, en recursos estructurados y consultables. Si bien las herramientas de detección estándar se limitan a los metadatos a nivel del archivo, como el tamaño y el tipo, las estadísticas de datos para los datos no estructurados usan Vertex AI para analizar el contenido de los archivos. Extrae automáticamente el contexto empresarial necesario para fundamentar los agentes de IA y potenciar las estadísticas avanzadas.
Esta automatización elimina la necesidad de analizar documentos de forma manual y de usar código ETL personalizado, lo que te permite descubrir, clasificar y usar datos a los que antes no podías acceder.
Descubrimiento automatizado de datos no estructurados
Un análisis de descubrimiento es un proceso que localiza automáticamente tus archivos no estructurados en Cloud Storage y los cataloga en una o varias tablas de objetos en BigQuery para su análisis. Sirve como punto de entrada para las estadísticas de datos no estructurados. El sistema registra automáticamente las tablas de objetos resultantes como entradas en Knowledge Catalog. Cuando se crean varias tablas debido a un análisis de descubrimiento, cada una de las entradas tiene su propia pestaña de estadísticas. Luego, puedes abrir esta entrada para explorar las estadísticas de datos generadas. Cuando ejecutas un análisis de descubrimiento con las estadísticas de datos habilitadas para los datos no estructurados, el sistema realiza las siguientes acciones:
Identifica y agrupa archivos. Identifica y organiza automáticamente los archivos no estructurados en Cloud Storage en tablas de objetos. Estas tablas de objetos son de solo lectura y proporcionan una interfaz estructurada para tus datos no estructurados.
Proporciona estadísticas de datos no estructurados. Usa Vertex AI para analizar el contenido real de los archivos y comprender su significado y estructura. Esto incluye la inferencia de entidades, que usa la IA generativa para extraer atributos específicos, por ejemplo,
Company,ProductoSerial Number, del contenido del archivo. También incluye la extracción de relaciones, que identifica cómo se conectan estas entidades, por ejemplo,Component is_part_of Product, para crear un gráfico semántico.Genera esquemas y perfiles de gráficos. Proporciona un esquema relacional sugerido por la IA y un aspecto del perfil de gráfico. Este es un aspecto de los metadatos de Knowledge Catalog que contiene los esquemas inferidos para las entidades y las relaciones.
Enriquece los metadatos. Completa automáticamente el catálogo de conocimiento con metadatos generados por IA. Esto hace que los datos se puedan buscar y estén listos para la extracción.
En lugar de diseñar esquemas de bases de datos de forma manual, puedes realizar la extracción de datos con SQL de un solo clic o la organización de canalizaciones. Este proceso materializa las entidades y las relaciones inferidas en formatos estructurados, como tablas o vistas.
Casos de uso
Puedes usar las estadísticas de datos para datos no estructurados con diversos fines, incluidos los siguientes:
Configuración de la canalización. Facilita la extracción de datos de Cloud Storage a BigQuery reemplazando los analizadores personalizados por sugerencias de esquemas automatizadas y la implementación con un solo clic para materializar los datos en tablas, vistas o gráficos semánticos de BigQuery.
Por ejemplo, una empresa de servicios financieros puede extraer con mayor facilidad los detalles de las facturas, los nombres de los proveedores y las condiciones contractuales de miles de facturas en PDF, y materializarlos directamente en BigQuery para obtener análisis de gastos inmediatos sin escribir código de análisis personalizado.
Clasificación y validación de contenido. Agrupa automáticamente los datos ocultos en recursos aptos para la búsqueda enriquecidos con metadatos generados por IA, lo que permite que los administradores de datos realicen la validación y la supervisión con interacción humana de las entidades extraídas a gran escala.
Por ejemplo, un departamento legal o de cumplimiento puede clasificar automáticamente grandes repositorios de contratos históricos y extraer entidades clave. Esto permite que los administradores de datos validen los metadatos antes de usarlos para informes reglamentarios críticos.
Fundamentos de agentes de IA. Fundamentar agentes de generación mejorada por recuperación (RAG) con gráficos verificados Esto proporciona una "cadena de trazabilidad" clara que conecta los archivos sin procesar con la lógica empresarial estructurada, lo que reduce las alucinaciones y permite que los agentes de IA naveguen por las uniones de varias tablas sin ambigüedades.
Por ejemplo, una empresa de fabricación puede extraer relaciones entre equipos a partir de los registros de mantenimiento. Cuando un técnico le pregunta a un agente de IA conversacional: "¿Qué regiones se ven afectadas por el retiro de silicona?", el agente usa el gráfico de relaciones verificado para proporcionar una respuesta precisa con una cadena de trazabilidad clara que se remonta a los manuales originales.
Limitaciones
Revisa las siguientes limitaciones antes de usar las estadísticas de datos para datos no estructurados:
Formatos admitidos. Si bien los análisis de descubrimiento identifican y agrupan automáticamente varios tipos de archivos no estructurados en tablas de objetos de BigQuery, las estadísticas de datos para los datos no estructurados solo se optimizan para los archivos PDF.
Ubicaciones. Las estadísticas de datos para datos no estructurados solo están disponibles en las ubicaciones que admiten los modelos de Gemini 2.5 Pro de Vertex AI. Para obtener una lista de las regiones admitidas, consulta la sección Regiones admitidas en Gemini 2.5 Pro.
Precios
Durante la fase de versión preliminar, las estadísticas de datos no estructurados están disponibles para la experimentación y las pruebas sin cargo adicional por las capacidades de inferencia semántica. Sin embargo, sigues siendo responsable de los costos de los recursos y servicios subyacentes que se consumen durante el proceso.
Período de vista previa
Inferencia semántica: No se aplican cargos por usar Vertex AI para extraer información semántica y, luego, inferir perfiles de gráficos durante los análisis de detección a lo largo del período de vista previa.
Costos de los recursos subyacentes: Se aplican cargos estándar por los recursos necesarios para almacenar y procesar tus datos:
Knowledge Catalog.
Los análisis de descubrimiento se facturan según los SKU de procesamiento premium de Knowledge Catalog (horas de DCU) para el análisis y la agrupación de datos no estructurados. Para obtener más información, consulta los precios de Knowledge Catalog.
Los metadatos generados por IA, incluidos los perfiles de gráficos, generan cargos de almacenamiento estándar de Knowledge Catalog.
BigQuery.
Si usas el método de extracción de canalizaciones, se aplican los cargos estándar por la ejecución de Dataform y los trabajos de BigQuery.
Si usas el método de SQL, se aplican los cargos estándar de BigQuery ML y los cargos de trabajo de BigQuery.
Todos los datos materializados en BigQuery, incluidas las tablas de objetos, los metadatos inferidos y las entidades extraídas, generan cargos estándar de almacenamiento y consulta de BigQuery. Para obtener más información, consulta los precios de BigQuery.
Disponibilidad general (DG)
La facturación oficial de las estadísticas de datos no estructurados comenzará cuando se alcance la disponibilidad general (DG).
Cuotas
Las cuotas estándar de recursos y APIs de DataScan se aplican a cada trabajo de descubrimiento individual. Una cuota específica rige el volumen de inferencia semántica: La cantidad total de ejecuciones de inferencia semántica diarias en las tablas de objetos de BigQuery se limita a una por proyecto por día.
Dado que las estadísticas de datos no estructurados se basan en un análisis de detección, se aplican los límites de la cantidad de tablas que admite un análisis de detección. Para obtener más información, consulta Cuotas y límites de BigQuery.
¿Qué sigue?
- Obtén información para usar las estadísticas de datos para datos no estructurados.
- Obtén más información para descubrir datos.