Adicionar uma zona

Este documento descreve o que são as zonas do Knowledge Catalog (antigo Dataplex Universal Catalog) e como adicioná-las ao lake do Knowledge Catalog.

Visão geral

As zonas do Knowledge Catalog são entidades nomeadas em um lake do Knowledge Catalog. Elas são agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, que consistem em vários ativos, como buckets do Cloud Storage, conjuntos de dados do BigQuery e tabelas do BigQuery.

Um lake pode incluir uma ou mais zonas. Embora uma zona só possa fazer parte de um lake, ela pode conter ativos que apontam para recursos que fazem parte de projetos fora do projeto pai.

É possível selecionar configurações para uma zona no Knowledge Catalog. Há dois tipos de zonas disponíveis: bruta e selecionada.

Zonas brutas

As zonas de originais armazenam dados estruturados, semiestruturados, como arquivos CSV e JSON, e não estruturados em qualquer formato de fontes externas. As zonas brutas são úteis para preparar dados brutos antes de realizar transformações. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

As zonas brutas oferecem suporte à granularidade no nível do bucket ou do conjunto de dados para permissões de leitura e gravação. Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.

Zonas selecionadas

As zonas de curadoria armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

Os formatos compatíveis com buckets do Cloud Storage incluem Parquet, Avro e ORC. As zonas selecionadas são úteis para preparar dados que exigem processamento antes de serem usados para análise ou para veicular dados prontos para análise.

Para tabelas do BigQuery, é necessário ter um esquema bem definido e partições no estilo Hive. Quando você fornece um esquema para uma determinada tabela em uma zona selecionada, os dados precisam estar em conformidade com o esquema definido para a tabela sem desvio de esquema. Isso significa que os dados precisam ser compatíveis com o esquema definido para a tabela, e as novas partições não podem ter um esquema que entre em conflito com o esquema da tabela.

As zonas selecionadas oferecem suporte à granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação.

Antes de começar

Antes de adicionar zonas a um lake, é necessário ter um lake. Se ainda não tiver já, crie um lake.

A maioria dos comandos gcloud lake requer um local. É possível especificar o local definindo o parâmetro --location.

Funções exigidas

Para receber a permissão necessária para adicionar uma zona, peça ao administrador para conceder a você o papel de administrador do Dataplex (roles/dataplex.admin) do IAM no seu projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém a dataplex.lakes.create permissão, que é necessária para adicionar uma zona.

Também é possível receber essa permissão com papéis personalizados ou outros papéis predefinidos.

Adicionar uma zona

É possível adicionar várias zonas ao seu lake. Você pode adicionar uma zona por vez, mas ainda usar o lake enquanto a zona está sendo criada.

Para adicionar uma zona a um lake, siga estas etapas:

Console

  1. No Google Cloud console, acesse a página Lakes do Knowledge Catalog.

    Acessar lakes

  2. Clique no nome do lake a que você quer adicionar uma zona.

  3. Na guia Zonas, clique em Adicionar zona.

  4. Insira um Nome de exibição para a zona.

  5. Clique no menu Tipo. Escolha Zona bruta ou Zona selecionada. Saiba mais sobre os tipos de zona compatíveis.

  6. Opcional: insira uma descrição.

  7. Em Locais dos dados, selecione Regional ou Multirregional. Não é possível mudar essa opção mais tarde. Os dados de região única e multirregião não podem ser combinados na mesma zona.

  8. Opcional: ative a descoberta de metadados, que permite que o Knowledge Catalog verifique e extraia metadados dos dados na sua zona automaticamente:

    1. Clique em Configurações de descoberta.

    2. Verifique se a opção Ativar descoberta de metadados está selecionada.

    3. Opcional: em Incluir padrões, liste os arquivos a serem incluídos nas verificações de descoberta.

    4. Opcional: em Excluir padrões, liste os arquivos a serem excluídos nas verificações de descoberta. Se você inserir padrões de inclusão e exclusão, os padrões de exclusão serão aplicados primeiro.

    5. Clique no menu Repetições e selecione uma frequência. Se você selecionar Personalizado, no campo Programação, insira uma programação de jobs. Caso contrário, o valor Programação será preenchido automaticamente.

    6. Clique no menu Fuso horário e selecione um fuso horário.

  9. Clique em Criar.

REST

Para adicionar uma zona, use o lakes.zones.create.

A criação da zona pode levar alguns minutos.

Quando a criação da zona é bem-sucedida, ela entra automaticamente no estado ativo. Se falhar, o lake será revertido para o estado anterior.

Depois de criar a zona, é possível mapear os dados armazenados em buckets do Cloud Storage e conjuntos de dados do BigQuery como ativos para a zona. Para mais informações, consulte Adicionar um ativo.

A seguir