Os insights de dados para dados não estruturados no Knowledge Catalog transformam dados brutos ou arquivos não estruturados, como PDFs, em recursos estruturados e consultáveis. Enquanto as ferramentas de descoberta padrão são limitadas a metadados no nível do arquivo, como tamanho e tipo, os insights de dados para dados não estruturados usam a Vertex AI para analisar o conteúdo do arquivo. Ele extrai automaticamente o contexto de negócios necessário para embasar agentes de IA e ativar análises avançadas.
Essa automação elimina a necessidade de análise manual de documentos e código ETL personalizado, permitindo que você descubra, classifique e use dados que antes eram inacessíveis.
Descoberta automatizada de dados não estruturados
Uma verificação de descoberta é um processo que localiza automaticamente seus arquivos não estruturados no Cloud Storage e os cataloga em uma ou várias tabelas de objetos do BigLake no BigQuery para análise. Ele serve como ponto de entrada para insights de dados para dados não estruturados. O sistema registra automaticamente as tabelas de objetos do BigLake resultantes como entradas no Knowledge Catalog. Quando várias tabelas são criadas devido a uma verificação de descoberta, cada uma das entradas tem a própria guia de insights. Em seguida, abra essa entrada para explorar os insights de dados gerados. Ao executar uma verificação de descoberta com insights de dados para dados não estruturados ativados, o sistema realiza estas ações:
Identifica e agrupa arquivos. Identifica e organiza automaticamente arquivos não estruturados no Cloud Storage em tabelas de objetos do BigLake. Essas tabelas de objetos são somente leitura e fornecem uma interface estruturada para seus dados não estruturados.
Realiza insights de dados para dados não estruturados. Usa a Vertex AI para analisar o conteúdo real dos arquivos e entender o significado e a estrutura deles. Isso inclui a inferência de entidades, que usa a IA generativa para extrair atributos específicos, por exemplo,
Company,Product, ouSerial Number, do conteúdo do arquivo. Ele também inclui a extração de relações, que identifica como essas entidades se conectam, por exemplo,Component is_part_of Product, para criar um gráfico semântico.Gera esquemas e perfis de gráficos. Fornece um esquema relacional sugerido pela IA e um aspecto de perfil de gráfico. Esse é um aspecto de metadados do Knowledge Catalog que contém os esquemas inferidos para as entidades e relações.
Enriquece metadados. Preenche automaticamente o Knowledge Catalog com metadados gerados por IA. Isso torna os dados pesquisáveis e prontos para extração.
Em vez de criar esquemas de banco de dados manualmente, você pode realizar a extração de dados usando o SQL de um clique ou a orquestração de pipelines. Esse processo materializa entidades e relações inferidas em formatos estruturados, como tabelas ou visualizações.
Casos de uso
Você pode usar insights de dados para dados não estruturados para várias finalidades, incluindo as seguintes:
Geração automatizada de pipelines de ETL. Automatize a extração de dados do Cloud Storage para o BigQuery substituindo analisadores personalizados por sugestões de esquema automatizadas e implantação com um clique para materializar dados em tabelas, visualizações ou gráficos semânticos do BigQuery.
Por exemplo, uma empresa de serviços financeiros pode extrair automaticamente detalhes de faturas, nomes de fornecedores e termos de contrato de milhares de faturas em PDF, materializando-os diretamente no BigQuery para análise imediata de gastos sem escrever um código de análise personalizado.
Classificação e validação de conteúdo. Agrupe automaticamente dados brutos em recursos pesquisáveis enriquecidos com metadados gerados por IA, o que permite que os administradores de dados realizem a validação e o monitoramento humano em loop de entidades extraídas em grande escala.
Por exemplo, um departamento jurídico ou de compliance pode classificar automaticamente grandes repositórios de contratos históricos e extrair entidades importantes. Isso permite que os administradores de dados validem os metadados antes de usá-los para relatórios regulamentares críticos.
Embasamento de agentes de IA. Agentes de geração aumentada por recuperação (RAG) com embasamento e gráficos verificados. Isso fornece uma "cadeia de rastreabilidade" clara que conecta arquivos brutos à lógica de negócios estruturada, reduzindo a alucinação, o que permite que os agentes de IA naveguem por junções de várias tabelas sem ambiguidade.
Por exemplo, uma empresa de manufatura pode extrair relações de equipamentos de registros de manutenção. Quando um técnico pergunta a um agente de IA conversacional "Quais regiões são afetadas pelo recall de silicone?", o agente usa o gráfico de relacionamento verificado para fornecer uma resposta precisa com uma cadeia de rastreabilidade clara de volta aos manuais originais.
Limitações
Analise as seguintes limitações antes de usar insights de dados para dados não estruturados:
Formatos compatíveis. Embora as verificações de descoberta identifiquem e agrupem automaticamente vários tipos de arquivos não estruturados em tabelas de objetos do BigQuery, os insights de dados para dados não estruturados só são otimizados para arquivos PDF.
Locais. Os insights de dados para dados não estruturados só estão disponíveis em locais que oferecem suporte aos modelos Gemini 2.5 Pro da Vertex AI. Para conferir uma lista de regiões com suporte, consulte a seção Regiões com suporte no Gemini 2.5 Pro.
Preços
Durante a fase de pré-lançamento, os insights de dados para dados não estruturados estão disponíveis para experimentação e testes sem custo adicional para recursos de inferência semântica. No entanto, você continua responsável pelos custos dos recursos e serviços subjacentes consumidos durante o processo.
Período de pré-lançamento
Inferência semântica. Não há cobranças pelo uso da Vertex AI para extrair informações semânticas e inferir perfis de gráficos durante as verificações de descoberta durante o período de pré-lançamento.
Custos de recursos subjacentes. As cobranças padrão são aplicadas aos recursos necessários para armazenar e processar seus dados:
Knowledge Catalog.
As verificações de descoberta são faturadas com base nas SKUs de processamento premium do Knowledge Catalog (horas de DCU) para a verificação e o agrupamento de dados não estruturados. Para mais informações, consulte Preços do Knowledge Catalog.
Os metadados gerados por IA, incluindo perfis de gráficos, incorrem em cobranças de armazenamento padrão do Knowledge Catalog.
BigQuery.
Se você usar o método de extração de pipeline, as cobranças padrão para execução do Dataform e jobs do BigQuery serão aplicadas.
Se você usar o método SQL, as cobranças padrão do BigQuery ML e do job do BigQuery serão aplicadas.
Todos os dados materializados no BigQuery, incluindo tabelas de objetos, metadados inferidos e entidades extraídas, incorrem em cobranças padrão de armazenamento e consulta do BigQuery. Para mais informações, consulte Preços do BigQuery.
Disponibilidade geral (GA)
O faturamento oficial de insights de dados para dados não estruturados começa na disponibilidade geral (GA).
Cotas
As cotas padrão de recursos e API do DataScan se aplicam a cada job de descoberta individual. Uma cota específica rege o volume de inferência semântica: o total de execuções de inferência semântica diárias em tabelas de objetos do BigQuery é limitado a uma por projeto por dia.
Como os insights de dados para dados não estruturados dependem de uma verificação de descoberta, os limites de quantas tabelas uma verificação de descoberta oferece suporte são aplicados. Para mais informações, consulte Cotas e limites do BigQuery.
A seguir
- Saiba como usar insights de dados para dados não estruturados dados.
- Saiba mais sobre como descobrir dados.