A partir de 10 de abril de 2026, o Dataplex Universal Catalog será chamado de Knowledge Catalog. Os nomes da API, da biblioteca de cliente, da CLI e do IAM permanecem inalterados. Para mais informações, consulte Apresentação do Knowledge Catalog do Google Cloud.

Adicionar uma zona

Este documento descreve o que são as zonas do Knowledge Catalog (antigo Dataplex Universal Catalog) e como adicioná-las ao lake do Knowledge Catalog.

Visão geral

As zonas do Knowledge Catalog são entidades nomeadas em um lake do Knowledge Catalog. Elas são agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, que consistem em vários ativos, como buckets do Cloud Storage, conjuntos de dados do BigQuery e tabelas do BigQuery.

Um lake pode incluir uma ou mais zonas. Embora uma zona só possa fazer parte de um lake, ela pode conter ativos que apontam para recursos que fazem parte de projetos fora do projeto pai.

É possível selecionar configurações para uma zona no Knowledge Catalog. Há dois tipos de zonas disponíveis: bruta e selecionada.

Zonas brutas

As zonas de originais armazenam dados estruturados, semiestruturados, como arquivos CSV e JSON, e não estruturados em qualquer formato de fontes externas. As zonas brutas são úteis para preparar dados brutos antes de realizar transformações. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

As zonas brutas oferecem suporte à granularidade no nível do bucket ou do conjunto de dados para permissões de leitura e gravação. Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.

Zonas selecionadas

As zonas de curadoria armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

Os formatos compatíveis com buckets do Cloud Storage incluem Parquet, Avro e ORC. As zonas selecionadas são úteis para preparar dados que exigem processamento antes de serem usados para análise ou para veicular dados prontos para análise.

Para tabelas do BigQuery, é necessário ter um esquema bem definido e partições no estilo Hive. Quando você fornece um esquema para uma determinada tabela em uma zona selecionada, os dados precisam estar em conformidade com o esquema definido para a tabela sem desvio de esquema. Isso significa que os dados precisam ser compatíveis com o esquema definido para a tabela, e as novas partições não podem ter um esquema que entre em conflito com o esquema da tabela.

As zonas selecionadas oferecem suporte à granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação.

Antes de começar

Antes de adicionar zonas a um lake, é necessário ter um lake. Se ainda não tiver já, crie um lake.

A maioria dos comandos gcloud lake requer um local. É possível especificar o local definindo o parâmetro --location.

Funções exigidas

Para receber a permissão necessária para adicionar uma zona, peça ao administrador para conceder a você o papel de administrador do Dataplex (roles/dataplex.admin) do IAM no seu projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém a dataplex.lakes.create permissão, que é necessária para adicionar uma zona.

Também é possível receber essa permissão com papéis personalizados ou outros papéis predefinidos.