Sobre os insights de dados para dados não estruturados

Os insights de dados para dados não estruturados no Knowledge Catalog transformam dados desconhecidos ou arquivos não estruturados, como PDFs, em recursos estruturados e pesquisáveis. Enquanto as ferramentas de descoberta padrão são limitadas a metadados no nível do arquivo, como tamanho e tipo, os insights de dados para dados não estruturados usam a Vertex AI para analisar o conteúdo dos arquivos. Ele extrai automaticamente o contexto de negócios necessário para fundamentar os agentes de IA e impulsionar análises avançadas.

Essa automação elimina a necessidade de análise manual de documentos e código ETL personalizado, permitindo descobrir, classificar e usar dados que antes eram inacessíveis.

Descoberta automatizada de dados não estruturados

Uma verificação de descoberta é um processo que localiza automaticamente seus arquivos não estruturados no Cloud Storage e os cataloga em uma ou várias tabelas de objetos no BigQuery para análise. Ele serve como ponto de entrada para insights de dados não estruturados. O sistema registra automaticamente as tabelas de objetos resultantes como entradas no Knowledge Catalog. Quando várias tabelas são criadas devido a uma verificação de descoberta, cada uma das entradas tem sua própria guia "Insights". Em seguida, abra essa entrada para conferir os insights de dados gerados. Quando você executa uma verificação de descoberta com os insights de dados para dados não estruturados ativados, o sistema realiza estas ações:

  1. Identifica e agrupa arquivos. Identifica e organiza automaticamente arquivos não estruturados no Cloud Storage em tabelas de objetos. Essas tabelas de objetos são somente leitura e oferecem uma interface estruturada para seus dados não estruturados.

  2. Realiza análises de dados não estruturados. Usa a Vertex AI para analisar o conteúdo real dos arquivos e entender o significado e a estrutura deles. Isso inclui a inferência de entidades, que usa a IA generativa para extrair atributos específicos, por exemplo, Company, Product ou Serial Number, do conteúdo do arquivo. Ele também inclui extração de relações, que identifica como essas entidades se conectam, por exemplo, Component is_part_of Product, para criar um gráfico semântico.

  3. Gera esquemas e perfis de gráficos. Fornece um esquema relacional sugerido pela IA e um aspecto de perfil de gráfico. É um aspecto de metadados do Knowledge Catalog que contém os esquemas inferidos para as entidades e os relacionamentos.

  4. Enriquece os metadados. Preenche automaticamente o Knowledge Catalog com metadados gerados por IA. Isso torna os dados pesquisáveis e prontos para extração.

Em vez de criar manualmente esquemas de banco de dados, é possível realizar a extração de dados usando SQL com um clique ou orquestração de pipeline. Esse processo materializa entidades e relacionamentos inferidos em formatos estruturados, como tabelas ou visualizações.

Casos de uso

É possível usar insights de dados não estruturados para várias finalidades, incluindo as seguintes:

  • Geração automatizada de pipelines de ETL. Automatize a extração de dados do Cloud Storage para o BigQuery substituindo os analisadores personalizados por sugestões de esquema automatizadas e implantação com um clique para materializar dados em tabelas, visualizações ou gráficos semânticos do BigQuery.

    Por exemplo, uma empresa de serviços financeiros pode extrair automaticamente detalhes de faturas, nomes de fornecedores e termos de contrato de milhares de faturas em PDF, materializando-os diretamente no BigQuery para análise imediata de gastos sem escrever código de análise personalizado.

  • Classificação e validação de conteúdo. Agrupe automaticamente dados desconhecidos em recursos pesquisáveis enriquecidos com metadados gerados por IA, permitindo que os administradores de dados realizem validação e monitoramento humano no loop de entidades extraídas em grande escala.

    Por exemplo, um departamento jurídico ou de compliance pode classificar automaticamente grandes repositórios de contratos históricos e extrair entidades importantes. Isso permite que os administradores de dados validem os metadados antes de usá-los para relatórios regulamentares importantes.

  • Embasamento do agente de IA. Embasar agentes de geração aumentada por recuperação (RAG) com grafos verificados. Isso fornece uma "cadeia de rastreabilidade" clara que conecta arquivos brutos à lógica de negócios estruturada, reduzindo a alucinação, o que permite que os agentes de IA naveguem por junções de várias tabelas sem ambiguidade.

    Por exemplo, uma empresa de manufatura pode extrair relações de equipamentos dos registros de manutenção. Quando um técnico pergunta a um agente de IA de conversação: "Quais regiões foram afetadas pelo recall do silicone?", o agente usa o gráfico de relacionamento verificado para fornecer uma resposta precisa com uma cadeia de rastreabilidade clara até os manuais originais.

Limitações

Revise as seguintes limitações antes de usar insights de dados para dados não estruturados:

  • Formatos compatíveis. Embora as verificações de descoberta identifiquem e agrupem automaticamente vários tipos de arquivos não estruturados em tabelas de objetos do BigQuery, os insights de dados não estruturados são otimizados apenas para arquivos PDF.

  • Locais. Os insights de dados para dados não estruturados só estão disponíveis em locais que oferecem suporte aos modelos do Gemini 2.5 Pro da Vertex AI. Para uma lista de regiões compatíveis, consulte a seção Regiões compatíveis em Gemini 2.5 Pro.

Preços

Durante a fase de pré-lançamento, os insights de dados não estruturados estão disponíveis para experimentação e testes sem custo adicional para recursos de inferência semântica. No entanto, você continua responsável pelos custos dos recursos e serviços subjacentes consumidos durante o processo.

Período de prévia

  • Inferência semântica. Não há cobranças pelo uso da Vertex AI para extrair informações semânticas e inferir perfis de gráficos durante as verificações de descoberta durante o período de pré-lançamento.

  • Custos de recursos subjacentes. As cobranças padrão se aplicam aos recursos necessários para armazenar e processar seus dados:

    • Knowledge Catalog.

      • As verificações de descoberta são cobradas com base nas SKUs de processamento Premium do Knowledge Catalog (horas de DCU) para a verificação e o agrupamento de dados não estruturados. Para mais informações, consulte os preços do Knowledge Catalog.

      • Os metadados gerados por IA, incluindo perfis de gráficos, estão sujeitos às cobranças padrão de armazenamento do Knowledge Catalog.

    • BigQuery.

      • Se você usar o método de extração de pipeline, as cobranças padrão para execução do Dataform e jobs do BigQuery serão aplicadas.

      • Se você usar o método SQL, as cobranças padrão do BigQuery ML e do job do BigQuery serão aplicadas.

      • Todos os dados materializados no BigQuery, incluindo tabelas de objetos, metadados inferidos e entidades extraídas, estão sujeitos às cobranças padrão de armazenamento e consulta do BigQuery. Para mais informações, consulte os preços do BigQuery.

Disponibilidade geral (GA)

O faturamento oficial dos insights de dados para dados não estruturados começa quando o recurso entra em disponibilidade geral (GA).

Cotas

As cotas padrão de recursos e APIs do DataScan se aplicam a cada job de descoberta individual. Uma cota específica rege o volume de inferência semântica: o total de execuções diárias de inferência semântica em tabelas de objetos do BigQuery é limitado a uma por projeto por dia.

Como os insights de dados para dados não estruturados dependem de uma verificação de descoberta, os limites de quantas tabelas uma verificação de descoberta pode processar são aplicados. Para mais informações, consulte Cotas e limites do BigQuery.

A seguir