A partir de 10 de abril de 2026, o Dataplex Universal Catalog será chamado de Knowledge Catalog. Os nomes da API, da biblioteca de cliente, da CLI e do IAM permanecem inalterados. Para mais informações, consulte Apresentação do Knowledge Catalog do Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sobre os insights de dados não estruturados

Uma verificação de perfil de dados não estruturados no Knowledge Catalog transforma dados brutos ou arquivos não estruturados, como PDFs no Cloud Storage, em recursos estruturados e consultáveis no BigQuery. Embora as ferramentas de descoberta padrão sejam limitadas a metadados no nível do arquivo, como tamanho e tipo, uma verificação de perfil de dados não estruturados com tecnologia dos modelos Gemini da Vertex AI analisa o conteúdo do arquivo. Ela extrai automaticamente o contexto de negócios necessário para fundamentar agentes de IA e ativar análises avançadas.

Essa automação elimina a necessidade de análise manual de documentos e código ETL personalizado, permitindo que você descubra, classifique e use dados que antes eram inacessíveis.

Uma verificação de perfil de dados não estruturados analisa o conteúdo de arquivos não estruturados para extrair informações e inferir esquemas. Isso é diferente do recurso de insights de dados estruturados, que gera descrições e consultas SQL com base nos metadados de tabelas estruturadas existentes, e da criação de perfil de dados estatísticos padrão, que calcula métricas como contagens nulas e distribuições de valores.

Descoberta automatizada e criação de perfil semântico

É possível criar perfis de dados não estruturados usando dois fluxos de trabalho diferentes, dependendo do ponto de partida:

Durante uma verificação de descoberta do Cloud Storage: Uma verificação de descoberta localiza automaticamente seus arquivos não estruturados no Cloud Storage e os cataloga em uma ou várias tabelas de objetos no BigQuery para análise. Uma tabela de objetos é uma tabela somente leitura sobre objetos de dados não estruturados que residem no Cloud Storage. Quando você executa uma verificação de descoberta com a opção Ativar inferência semântica ativada, ela serve como o ponto de entrada automatizado para a criação de perfil de dados não estruturados.
Como uma verificação de perfil de dados independente para dados não estruturados:se você já tiver tabelas de objetos do BigQuery, poderá executar uma verificação de perfil de dados não estruturados diretamente nessas tabelas. Nesse fluxo de trabalho independente, também é possível orientar a extração fornecendo um comando personalizado na especificação DataScan.

Quando a criação de perfil de dados não estruturados é realizada (automaticamente durante uma verificação de descoberta ou como uma verificação independente), o sistema registra as tabelas de objetos como entradas no Knowledge Catalog. Uma entrada representa um recurso de dados para o qual você captura metadados. Quando várias tabelas são criadas devido a uma verificação de descoberta, cada entrada tem a própria guia de insights. Em seguida, é possível abrir essa entrada para explorar os insights de dados gerados. O sistema realiza estas ações:

Identifica e agrupa arquivos (somente verificação de descoberta). Identifica e organiza automaticamente arquivos não estruturados no Cloud Storage em tabelas de objetos. Essas tabelas de objetos são somente leitura e fornecem uma interface estruturada para seus dados não estruturados.
Realiza uma verificação de perfil de dados não estruturados. Usa modelos Gemini da Vertex AI para analisar o conteúdo dos arquivos e entender o significado e a estrutura deles. Isso inclui a inferência de entidades, que usa a IA generativa para extrair atributos específicos, por exemplo, Company, Product, ou Serial Number, do conteúdo do arquivo. Ela também inclui extração de relacionamentos, que identifica como essas entidades se conectam, por exemplo, Component is_part_of Product, para criar um gráfico semântico. Se você estiver executando uma verificação do perfil independente, poderá orientar essa extração fornecendo um comando personalizado na especificação DataScan.
Gera esquemas e perfis de gráficos. Fornece um esquema relacional sugerido pela IA e anexa um Graph Profile aspecto (dataplex-types.global.graph-profile) à entrada do catálogo que representa a tabela de objetos. Os aspectos são usados para capturar metadados em entradas. Esse aspecto de metadados contém os esquemas inferidos para as entidades (NodeType) e os relacionamentos (EdgeType).
Enriquece metadados. Preenche automaticamente o Knowledge Catalog com metadados gerados por IA. Isso torna os dados pesquisáveis e prontos para extração.

Em vez de criar esquemas de banco de dados manualmente, é possível realizar a extração de dados usando SQL com um clique ou orquestração de pipeline. Esse processo materializa entidades e relacionamentos inferidos em formatos estruturados, como tabelas ou visualizações físicas do BigQuery.

Métodos da API

É possível configurar, executar e gerenciar verificações de perfil de dados não estruturados e as entradas de catálogo resultantes usando os seguintes métodos da API REST:

Método de API	Descrição
`projects.locations.dataScans.create`	Cria uma verificação de descoberta (usando `dataDiscoverySpec`) ou uma verificação de perfil de dados independente para dados não estruturados (usando `unstructuredDataProfileSpec`).
`projects.locations.dataScans.run`	Aciona um job de verificação de perfil de dados ou de descoberta sob demanda para analisar arquivos não estruturados e gerar insights semânticos.
`projects.locations.dataScans.get`	Recupera os detalhes de configuração e os resultados mais recentes do job de uma verificação de perfil de dados.
`projects.locations.dataScans.jobs.list`	Lista jobs de verificação históricos para uma verificação de perfil de dados ou de descoberta específica.
`projects.locations.dataScans.jobs.get`	Recupera resultados de execução detalhados e registros de um job de verificação de perfil de dados específico.
`projects.locations.entryGroups.entries.get`	Recupera uma entrada de catálogo que representa uma tabela de objetos, incluindo os aspectos de metadados gerados por IA anexados (como `GraphProfile`).
`projects.locations.entryGroups.entries.patch`	Atualiza uma entrada de catálogo para anexar, modificar ou selecionar aspectos de metadados (como `dataplex-types.global.graph-profile`).

Casos de uso

É possível usar verificações de perfil de dados não estruturados para várias finalidades em diferentes domínios do setor, incluindo:

Configuração de pipeline e normalização zero-ETL. Facilite a extração de dados do Cloud Storage para o BigQuery substituindo analisadores personalizados por sugestões de esquema automatizadas e implantação com um clique para materializar dados em tabelas, visualizações ou gráficos semânticos do BigQuery.

Por exemplo, no e-commerce e no varejo, um marketplace pode normalizar automaticamente faturas de fornecedores e pedidos de compra em centenas de layouts de PDF diferentes em um esquema unificado e coeso do BigQuery (mapeando Unit Pr., Price/Pkg e Item Cost para uma única coluna Unit_Price) sem escrever um código de análise personalizado. Na área da saúde, os bioestatísticos podem ingerir protocolos de ensaios clínicos multicêntricos e formulários de relatório de caso (CRFs, na sigla em inglês) em tabelas estruturadas para análise de coorte rápida.
Classificação e validação de conteúdo. Agrupe automaticamente dados brutos em recursos pesquisáveis enriquecidos com metadados gerados por IA, o que permite que os administradores de dados realizem a validação e o monitoramento humano no loop de entidades extraídas em escala.

Por exemplo, em serviços financeiros, um banco de investimentos que realiza due diligence de fusões e aquisições pode classificar automaticamente grandes repositórios de contratos históricos e acordos de crédito, extraindo entidades legais complexas (Contracting_Parties, Indemnity_Cap, Governing_Law). Os administradores de dados podem explorar o gráfico de conhecimento visual na guia Insights para identificar responsabilidades de alto risco antes de exportar dados para relatórios executivos.
Fundamentação de agentes de IA. Fundamente agentes de geração aumentada por recuperação (RAG) com gráficos verificados. Isso fornece uma "cadeia de rastreabilidade" clara que conecta arquivos brutos à lógica de negócios estruturada, reduzindo a alucinação, o que permite que os agentes de IA naveguem em junções de várias tabelas sem ambiguidade.

Por exemplo, em operações industriais e de fabricação, uma empresa de máquinas pesadas pode extrair relacionamentos de equipamentos de décadas de registros de manutenção de campo não estruturados e relatórios de incidentes. Quando um técnico no local pergunta a um agente de IA de conversação como resolver uma queda de pressão hidráulica não característica, o agente usa o gráfico de relacionamento verificado (Error_Code indicates_failure Hydraulic_Valve) para fornecer um plano de reparo preciso e detalhado citando o relatório de alerta de incidente exato.

Limitações

Revise as seguintes limitações antes de usar verificações de perfil de dados não estruturados:

Formatos compatíveis. Embora as verificações de descoberta identifiquem e agrupem automaticamente vários tipos de arquivos não estruturados em tabelas de objetos do BigQuery, o mecanismo de inferência semântica para verificações de perfil de dados não estruturados é otimizado principalmente para documentos PDF.
Locais. As verificações de perfil de dados não estruturados só estão disponíveis em locais que oferecem suporte aos modelos Gemini 2.5 Pro da Vertex AI (por exemplo, us-central1, europe-west1, asia-southeast1). Para uma lista de regiões com suporte, consulte a seção Regiões com suporte em Gemini 2.5 Pro. As verificações criadas em regiões sem suporte retornam erros de validação ou execução.
Escopo do recurso. As verificações de perfil de dados não estruturados operam exclusivamente em tabelas de objetos do BigQuery. Elas não oferecem suporte a tabelas estruturadas padrão do BigQuery, tabelas externas em dados estruturados ou visualizações do BigQuery.

Preços

Durante a fase de prévia pública, as verificações de perfil de dados não estruturados estão disponíveis para experimentação e testes em termos promocionais especializados:

Inferência semântica. Não há cobrança pelo uso dos modelos Gemini da Vertex AI para extrair informações semânticas e inferir perfis de gráficos durante as verificações de descoberta durante o período de prévia.
Custos de recursos subjacentes. As cobranças padrão são aplicadas aos recursos necessários para armazenar e processar seus dados:
- Knowledge Catalog
  - As verificações de descoberta são faturadas com base nas SKUs de processamento premium do Knowledge Catalog (horas de DCU) para a verificação e o agrupamento de arquivos não estruturados. Para mais informações, consulte Preços do Knowledge Catalog.
  - Os aspectos de metadados gerados por IA, incluindo perfis de gráficos, incorrem em cobranças padrão de armazenamento de catálogo do Knowledge Catalog.
- BigQuery e Dataform
  - Se você usar o método de extração de pipeline, as cobranças padrão para execução do Dataform e jobs do BigQuery serão aplicadas.
  - Se você usar o método SQL, as cobranças padrão do BigQuery ML (ML.PROCESS_DOCUMENT) e as taxas de processamento de consultas do BigQuery serão aplicadas.
  - Todos os dados materializados no BigQuery, incluindo tabelas de objetos, metadados inferidos e entidades extraídas, incorrem em cobranças padrão de armazenamento e consulta do BigQuery. Para mais informações, consulte Preços do BigQuery.

As estruturas de faturamento dedicadas oficiais para verificações de perfil de dados não estruturados e inferência semântica começam na disponibilidade geral (GA).

Cotas

As cotas padrão de recursos e API do DataScan se aplicam a cada job de verificação de perfil de dados ou de descoberta. Uma cota específica rege o volume de inferência semântica: as execuções diárias totais de verificações de perfil de dados não estruturados em tabelas de objetos do BigQuery são limitadas a 140 execuções por projeto por dia.

Quando a criação de perfil de dados não estruturados é realizada durante uma verificação de descoberta, os limites de quantas tabelas uma verificação de descoberta oferece suporte também são aplicados. Para mais informações, consulte Cotas e limites do BigQuery.

A seguir

Saiba como usar a verificação de descoberta para dados não estruturados data.
Saiba como usar o perfil dos dados para dados não estruturados.
Saiba mais sobre como descobrir dados.
Leia Sobre a criação de perfil de dados.