Acerca de las estadísticas de datos para datos no estructurados

Las estadísticas de datos para datos no estructurados en Knowledge Catalog transforman datos oscuros o archivos no estructurados, como archivos PDF, en recursos estructurados que se pueden consultar. Si bien las herramientas de descubrimiento estándar se limitan a los metadatos a nivel de archivo, como el tamaño y el tipo, las estadísticas de datos para datos no estructurados usan Vertex AI para analizar el contenido de los archivos. Extrae automáticamente el contexto empresarial necesario para fundamentar los agentes de IA y potenciar las estadísticas avanzadas.

Esta automatización elimina la necesidad de analizar documentos de forma manual y de usar código ETL personalizado, lo que te permite descubrir, clasificar y usar datos a los que antes no podías acceder.

Descubrimiento automatizado de datos no estructurados

Un análisis de descubrimiento es un proceso que ubica automáticamente tus archivos no estructurados en Cloud Storage y los cataloga en una o varias tablas de objetos de BigLake en BigQuery para su análisis. Funciona como punto de entrada para las estadísticas de datos para datos no estructurados. El sistema registra automáticamente las tablas de objetos de BigLake resultantes como entradas en Knowledge Catalog. Cuando se crean varias tablas debido a un análisis de descubrimiento, cada una de las entradas tiene su propia pestaña de estadísticas. Luego, puedes abrir esta entrada para explorar las estadísticas de datos generadas. Cuando ejecutas un análisis de descubrimiento con las estadísticas de datos para datos no estructurados habilitadas, el sistema realiza las siguientes acciones:

  1. Identifica y agrupa archivos. Identifica y organiza automáticamente los archivos no estructurados en Cloud Storage en tablas de objetos de BigLake. Estas tablas de objetos son tablas de solo lectura que proporcionan una interfaz estructurada para tus datos no estructurados.

  2. Realiza estadísticas de datos para datos no estructurados. Usa Vertex AI para analizar el contenido real de los archivos y comprender su significado y estructura. Esto incluye la inferencia de entidades, que usa la IA generativa para extraer atributos específicos, por ejemplo, Company, Product, o Serial Number, del contenido del archivo. También incluye la extracción de relaciones, que identifica cómo se conectan estas entidades, por ejemplo, Component is_part_of Product, para crear un grafo semántico.

  3. Genera esquemas y perfiles de grafos. Proporciona un esquema relacional sugerido por IA y un aspecto de perfil de grafo. Este es un aspecto de metadatos de Knowledge Catalog que contiene los esquemas inferidos para las entidades y las relaciones.

  4. Enriquece los metadatos. Completa automáticamente Knowledge Catalog con metadatos generados por IA. Esto hace que los datos se puedan buscar y estén listos para la extracción.

En lugar de diseñar esquemas de bases de datos de forma manual, puedes realizar la extracción de datos con SQL de un solo clic o la organización de canalizaciones. Este proceso materializa las entidades y las relaciones inferidas en formatos estructurados, como tablas o vistas.

Casos de uso

Puedes usar las estadísticas de datos para datos no estructurados para varios fines, incluidos los siguientes:

  • Generación automatizada de canalizaciones de ETL. Automatiza la extracción de datos de Cloud Storage a BigQuery reemplazando los analizadores personalizados por sugerencias de esquemas automatizadas y la implementación con un solo clic para materializar los datos en tablas, vistas o grafos semánticos de BigQuery.

    Por ejemplo, una empresa de servicios financieros puede extraer automáticamente los detalles de las facturas, los nombres de los proveedores y las condiciones contractuales de miles de facturas en PDF, y materializarlos directamente en BigQuery para obtener estadísticas de gastos inmediatas sin escribir código de análisis personalizado.

  • Clasificación y validación de contenido. Agrupa automáticamente los datos oscuros en recursos que se pueden buscar y que están enriquecidos con metadatos generados por IA, lo que permite a los administradores de datos realizar la validación y la supervisión de las entidades extraídas con intervención humana a gran escala.

    Por ejemplo, un departamento legal o de cumplimiento puede clasificar automáticamente grandes repositorios de contratos históricos y extraer entidades clave. Esto permite a los administradores de datos validar los metadatos antes de usarlos para informes reglamentarios críticos.

  • Fundamentación de agentes de IA. Fundamenta los agentes de Generación mejorada por recuperación (RAG) con grafos verificados. Esto proporciona una "cadena de trazabilidad" clara que conecta los archivos sin procesar con la lógica empresarial estructurada, lo que reduce las alucinaciones y permite que los agentes de IA naveguen por las uniones de varias tablas sin ambigüedades.

    Por ejemplo, una empresa de fabricación puede extraer relaciones de equipos de los registros de mantenimiento. Cuando un técnico le pregunta a un agente de IA conversacional "¿Qué regiones se ven afectadas por el retiro de silicona?", el agente usa el grafo de relaciones verificadas para proporcionar una respuesta precisa con una cadena de trazabilidad clara a los manuales originales.

Limitaciones

Revisa las siguientes limitaciones antes de usar las estadísticas de datos para datos no estructurados:

  • Formatos admitidos. Si bien los análisis de descubrimiento identifican y agrupan automáticamente varios tipos de archivos no estructurados en tablas de objetos de BigQuery, las estadísticas de datos para datos no estructurados solo están optimizadas para archivos PDF.

  • Ubicaciones. Las estadísticas de datos para datos no estructurados solo están disponibles en ubicaciones que admiten modelos de Vertex AI Gemini 2.5 Pro. Para obtener una lista de las regiones admitidas, consulta la sección Regiones admitidas en Gemini 2.5 Pro.

Precios

Durante la fase de vista previa, las estadísticas de datos para datos no estructurados están disponibles para la experimentación y las pruebas sin cargo adicional por las capacidades de inferencia semántica. Sin embargo, sigues siendo responsable de los costos de los recursos y servicios subyacentes que se consumen durante el proceso.

Período de vista previa

  • Inferencia semántica. No se cobra por usar Vertex AI para extraer información semántica y deducir perfiles de grafos durante los análisis de descubrimiento durante el período de vista previa.

  • Costos de recursos subyacentes. Se aplican cargos estándar por los recursos necesarios para almacenar y procesar tus datos:

    • Knowledge Catalog.

      • Los análisis de descubrimiento se facturan en función de las SKU de procesamiento premium de Knowledge Catalog (horas de DCU) para el análisis y la agrupación de datos no estructurados. Para obtener más información, consulta los precios de Knowledge Catalog.

      • Los metadatos generados por IA, incluidos los perfiles de grafos, generan cargos de almacenamiento estándar de Knowledge Catalog.

    • BigQuery.

      • Si usas el método de extracción de canalización, se aplican los cargos estándar por la ejecución de Dataform y los trabajos de BigQuery.

      • Si usas el método SQL, se aplican los cargos estándar de BigQuery ML y los cargos de trabajo de BigQuery.

      • Cualquier dato materializado en BigQuery, incluidas las tablas de objetos, los metadatos inferidos y las entidades extraídas, genera cargos estándar de almacenamiento y consulta de BigQuery. Para obtener más información, consulta los precios de BigQuery.

Disponibilidad general (DG)

La facturación oficial de las estadísticas de datos para datos no estructurados comienza con la disponibilidad general (DG).

Cuotas

Las cuotas estándar de recursos y API de DataScan se aplican a cada trabajo de descubrimiento individual. Una cuota específica rige el volumen de inferencia semántica: las ejecuciones totales de inferencia semántica diarias en las tablas de objetos de BigQuery se limitan a una por proyecto por día.

Debido a que las estadísticas de datos para datos no estructurados dependen de un análisis de descubrimiento, se aplican los límites de la cantidad de tablas que admite un análisis de descubrimiento. Para obtener más información, consulta Cuotas y límites de BigQuery.

¿Qué sigue?