A partir de 10 de abril de 2026, o Dataplex Universal Catalog será chamado de Knowledge Catalog. Os nomes da API, da biblioteca de cliente, da CLI e do IAM permanecem inalterados. Para mais informações, consulte Apresentação do Knowledge Catalog do Google Cloud.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sobre os insights de dados não estruturados

Uma verificação de perfil de dados para dados não estruturados no Knowledge Catalog transforma dados desconhecidos ou arquivos não estruturados, como PDFs no Cloud Storage, em recursos estruturados e consultáveis no BigQuery. Enquanto as ferramentas de descoberta padrão se limitam a metadados no nível do arquivo, como tamanho e tipo, uma verificação do perfil de dados não estruturados com tecnologia dos modelos Gemini da Vertex AI analisa o conteúdo dos arquivos. Ele extrai automaticamente o contexto de negócios necessário para fundamentar os agentes de IA e impulsionar análises avançadas.

Essa automação elimina a necessidade de análise manual de documentos e código ETL personalizado, permitindo descobrir, classificar e usar dados que antes eram inacessíveis.

Uma verificação de perfil de dados não estruturados analisa o conteúdo de arquivos não estruturados para extrair informações e inferir esquemas. Isso é diferente do recurso insights de dados para dados estruturados, que gera descrições e consultas SQL com base nos metadados de tabelas estruturadas atuais e da criação de perfil de dados estatística padrão, que calcula métricas como contagens de nulos e distribuições de valores.

Descoberta automatizada e criação de perfis semânticos

É possível fazer o perfil de dados não estruturados usando dois fluxos de trabalho diferentes, dependendo do seu ponto de partida:

Durante uma verificação de descoberta do Cloud Storage:uma verificação de descoberta localiza automaticamente seus arquivos não estruturados no Cloud Storage e os cataloga em uma ou várias tabelas de objetos no BigQuery para análise. Uma tabela de objetos é uma tabela somente leitura sobre objetos de dados não estruturados que residem no Cloud Storage. Quando você executa uma verificação de descoberta com a opção Ativar inferência semântica ativada, ela serve como o ponto de entrada automatizado para a criação de perfis de dados não estruturados.
Como uma verificação independente do perfil de dados para dados não estruturados:se você já tiver tabelas de objetos do BigQuery, poderá executar uma verificação do perfil de dados para dados não estruturados diretamente nessas tabelas. Nesse fluxo de trabalho independente, também é possível orientar a extração fornecendo um comando personalizado na especificação do DataScan.

Quando o perfil de dados não estruturados é realizado (automaticamente durante uma verificação de descoberta ou como uma verificação independente), o sistema registra as tabelas de objetos como entradas no Knowledge Catalog. Uma entrada representa um recurso de dados para o qual você captura metadados. Quando várias tabelas são criadas devido a uma verificação de descoberta, cada entrada tem uma guia "Insights" própria. Em seguida, abra essa entrada para conferir os insights de dados gerados. O sistema realiza estas ações:

Identifica e agrupa arquivos (somente verificação de descoberta). Identifica e organiza automaticamente arquivos não estruturados no Cloud Storage em tabelas de objetos. Essas tabelas de objetos são somente leitura e oferecem uma interface estruturada para seus dados não estruturados.
Executa uma verificação do perfil de dados para dados não estruturados. Usa modelos do Gemini da Vertex AI para analisar o conteúdo dos arquivos e entender o significado e a estrutura deles. Isso inclui a inferência de entidades, que usa a IA generativa para extrair atributos específicos, por exemplo, Company, Product ou Serial Number, do conteúdo do arquivo. Ele também inclui a extração de relações, que identifica como essas entidades se conectam, por exemplo, Component is_part_of Product, para criar um gráfico semântico. Se você estiver executando uma verificação do perfil independente, poderá orientar essa extração fornecendo um comando personalizado na especificação DataScan.
Gera esquemas e perfis de gráficos. Fornece um esquema relacional sugerido por IA e anexa um aspecto Graph Profile (dataplex-types.global.graph-profile) à entrada do catálogo que representa a tabela de objetos. Os aspectos são usados para capturar metadados em entradas. Esse aspecto de metadados contém os esquemas inferidos para as entidades (NodeType) e os relacionamentos (EdgeType).
Enriquece os metadados. Preenche automaticamente o Knowledge Catalog com metadados gerados por IA. Isso torna os dados pesquisáveis e prontos para extração.

Em vez de criar manualmente esquemas de banco de dados, é possível realizar a extração de dados usando SQL com um clique ou orquestração de pipeline. Esse processo materializa entidades e relacionamentos inferidos em formatos estruturados, como tabelas ou visualizações físicas do BigQuery.

Métodos da API

É possível configurar, executar e gerenciar verificações de perfil de dados para dados não estruturados e as entradas de catálogo resultantes usando os seguintes métodos da API REST:

Método de API	Descrição
`projects.locations.dataScans.create`	Cria uma verificação de descoberta (usando `dataDiscoverySpec`) ou uma verificação independente de perfil de dados para dados não estruturados (usando `unstructuredDataProfileSpec`).
`projects.locations.dataScans.run`	Aciona um job de verificação de perfil de dados ou de descoberta sob demanda para analisar arquivos não estruturados e gerar insights semânticos.
`projects.locations.dataScans.get`	Recupera os detalhes da configuração e os resultados mais recentes do job de uma verificação do perfil de dados.
`projects.locations.dataScans.jobs.list`	Lista os jobs de verificação históricos de uma verificação de perfil de dados ou de descoberta específica.
`projects.locations.dataScans.jobs.get`	Recupera resultados e registros detalhados da execução de um job específico de verificação de perfil de dados.
`projects.locations.entryGroups.entries.get`	Recupera uma entrada de catálogo que representa uma tabela de objetos, incluindo os aspectos de metadados gerados por IA anexados (como `GraphProfile`).
`projects.locations.entryGroups.entries.patch`	Atualiza uma entrada de catálogo para anexar, modificar ou organizar aspectos de metadados (como `dataplex-types.global.graph-profile`).

Casos de uso

É possível usar verificações de perfil de dados para dados não estruturados com várias finalidades em diferentes domínios do setor, incluindo:

Configuração de pipeline e normalização sem ETL. Facilite a extração de dados do Cloud Storage para o BigQuery substituindo os analisadores personalizados por sugestões de esquema automatizadas e implantação com um clique para materializar dados em tabelas, visualizações ou gráficos semânticos do BigQuery.

Por exemplo, no e-commerce e no varejo, um marketplace pode normalizar automaticamente faturas de fornecedores e pedidos de compra em centenas de layouts de PDF diferentes em um esquema unificado e coeso do BigQuery (mapeando Unit Pr., Price/Pkg e Item Cost para uma única coluna Unit_Price) sem escrever um código de análise personalizado. Na área da saúde, os bioestatísticos podem ingerir protocolos de ensaios clínicos multicêntricos e formulários de relato de caso (CRFs, na sigla em inglês) em tabelas estruturadas para uma análise de coorte rápida.
Classificação e validação de conteúdo. Agrupe automaticamente dados desconhecidos em recursos pesquisáveis enriquecidos com metadados gerados por IA, permitindo que os administradores de dados realizem validação e monitoramento human-in-the-loop de entidades extraídas em grande escala.

Por exemplo, em serviços financeiros, um banco de investimentos que realiza due diligence de fusões e aquisições pode classificar automaticamente grandes repositórios de contratos históricos e acordos de crédito, extraindo entidades jurídicas complexas (Contracting_Parties, Indemnity_Cap, Governing_Law). Os administradores de dados podem explorar o gráfico de conhecimento visual na guia Insights para identificar passivos de alto risco antes de exportar dados para relatórios executivos.
Embasamento do agente de IA. Usar agentes de geração aumentada por recuperação (RAG) com grafos verificados. Isso fornece uma "cadeia de rastreabilidade" clara que conecta arquivos brutos à lógica de negócios estruturada, reduzindo a alucinação, o que permite que os agentes de IA naveguem por junções de várias tabelas sem ambiguidade.

Por exemplo, em operações industriais e de fabricação, uma empresa de máquinas pesadas pode extrair relações de equipamentos de décadas de registros de manutenção de campo e relatórios de incidentes não estruturados. Quando um técnico no local pergunta a um agente de IA de conversação como resolver uma queda de pressão hidráulica incomum, o agente usa o gráfico de relacionamento verificado (Error_Code indicates_failure Hydraulic_Valve) para fornecer um plano de reparo preciso e detalhado, citando o alerta de incidente histórico exato.

Limitações

Revise as seguintes limitações antes de usar verificações de perfil de dados para dados não estruturados:

Formatos compatíveis. As verificações de descoberta identificam e agrupam automaticamente vários tipos de arquivos não estruturados em tabelas de objetos do BigQuery, mas o mecanismo de inferência semântica para verificações de perfil de dados não estruturados é otimizado principalmente para documentos PDF.
Locais. As verificações de perfil de dados para dados não estruturados só estão disponíveis em locais que oferecem suporte aos modelos do Gemini 2.5 Pro da Vertex AI (por exemplo, us-central1, europe-west1, asia-southeast1). Para conferir uma lista das regiões com suporte, consulte a seção Regiões com suporte em Gemini 2.5 Pro. As verificações criadas em regiões sem suporte retornam erros de validação ou execução.
Escopo do recurso. As verificações de perfil de dados para dados não estruturados operam exclusivamente em tabelas de objetos do BigQuery. Elas não oferecem suporte a tabelas estruturadas padrão do BigQuery, tabelas externas com dados estruturados ou visualizações do BigQuery.

Preços

Durante a fase de pré-lançamento público, as verificações de perfil de dados para dados não estruturados estão disponíveis para experimentação e testes de acordo com termos promocionais especializados:

Inferência semântica. Não há cobranças pelo uso dos modelos do Gemini da Vertex AI para extrair informações semânticas e inferir perfis de gráficos durante as verificações de descoberta ao longo do período de pré-lançamento.
Custos de recursos subjacentes. As cobranças padrão se aplicam aos recursos necessários para armazenar e processar seus dados:
- Knowledge Catalog
  - As verificações de descoberta são cobradas com base nas SKUs de processamento premium do Knowledge Catalog (horas de DCU) para a verificação e o agrupamento de arquivos não estruturados. Para mais informações, consulte Preços do Knowledge Catalog.
  - Os aspectos de metadados gerados por IA, incluindo perfis de gráficos, estão sujeitos às cobranças padrão de armazenamento do catálogo do Knowledge Catalog.
- BigQuery e Dataform
  - Se você usar o método de extração de pipeline, as cobranças padrão de execução do Dataform e jobs do BigQuery serão aplicadas.
  - Se você usar o método SQL, as cobranças padrão do BigQuery ML (ML.PROCESS_DOCUMENT) e as taxas de processamento de consultas do BigQuery serão aplicadas.
  - Todos os dados materializados no BigQuery, incluindo tabelas de objetos, metadados inferidos e entidades extraídas, estão sujeitos às cobranças padrão de armazenamento e consulta do BigQuery. Para mais informações, consulte Preços do BigQuery.

As estruturas de faturamento oficiais e dedicadas para verificações de perfil de dados de dados não estruturados e inferência semântica serão iniciadas na disponibilidade geral (GA).

Cotas

As cotas de API e recursos do DataScan padrão se aplicam a cada job de verificação de descoberta ou de perfil de dados individual. Uma cota específica rege o volume de inferência semântica: o total de execuções diárias de verificações de perfil de dados para dados não estruturados em tabelas de objetos do BigQuery é limitado a 140 execuções por projeto por dia.

Quando a criação de perfil de dados não estruturados é realizada durante uma verificação de descoberta, os limites de quantas tabelas uma verificação de descoberta pode processar também são aplicados. Para mais informações, consulte Cotas e limites do BigQuery.

A seguir

Saiba como usar a verificação de descoberta para dados não estruturados.
Saiba como usar o perfil dos dados para dados não estruturados.
Saiba mais sobre como descobrir dados.
Leia Sobre a criação de perfil de dados.