Gerenciar recursos de dados em um lake

Nesta página, explicamos como adicionar, fazer upgrade e remover buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos em zonas do Dataplex Universal Catalog.

Visão geral

Um recurso é mapeado para dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos Google Cloud separados como recursos em uma única zona dentro de um lake. É possível anexar buckets do Cloud Storage ou conjuntos de dados do BigQuery para serem gerenciados no lake.

Antes de começar

  • Se ainda não tiver feito isso, crie um lake e uma zona nele.

  • A maioria dos comandos gcloud lakes requer um local. É possível especificar o local usando a flag --location.

Papéis e permissões necessárias

Para gerenciar recursos no Dataplex Universal Catalog, é necessário ter permissões para que os usuários realizem ações de gerenciamento e para que a conta de serviço do Dataplex Universal Catalog acesse os recursos subjacentes.

Para adicionar ou remover recursos, os usuários precisam receber papéis do IAM que contenham as permissões necessárias, como dataplex.assets.create e dataplex.assets.delete. Os papéis predefinidos Administrador do Dataplex (roles/dataplex.admin) e Editor do Dataplex (roles/dataplex.editor) ou os papéis legados Proprietário (roles/owner) e Editor (roles/editor) incluem essas permissões.

Quando você anexa um recurso (bucket do Cloud Storage ou conjunto de dados do BigQuery) a um lake, o Dataplex Universal Catalog usa a conta de serviço para interagir com esse recurso.

  • Se o recurso estiver no mesmo projeto que o lake, as permissões serão concedidas implicitamente à conta de serviço.
  • Se o recurso estiver em um projeto diferente do data lake, será necessário conceder explicitamente à conta de serviço permissões para acessar esse recurso, conforme descrito nas seções a seguir.

Para mais informações, consulte IAM e controle de acesso do Dataplex Universal Catalog.

Conceder papéis para buckets do Cloud Storage

Para anexar um bucket do Cloud Storage de outro projeto, conceda as permissões da conta de serviço do catálogo universal do Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) de uma das seguintes maneiras:

  • Permissões no nível do projeto: conceda o papel roles/dataplex.serviceAgent à conta de serviço no projeto que contém o bucket. Isso concede ao Dataplex Universal Catalog permissões de administrador em todos os buckets do projeto, permitindo que ele gerencie permissões em buckets anexados.

  • Permissões no nível do bucket: para ter um controle mais granular, use o comando gcloud dataplex lakes authorize para conceder à conta de serviço as permissões necessárias apenas em um bucket específico.

Conceder papéis para conjuntos de dados do BigQuery

Para anexar um conjunto de dados do BigQuery de outro projeto, conceda à conta de serviço do Dataplex Universal Catalog o papel de administrador do BigQuery (roles/bigquery.admin) no conjunto de dados.

Considerações sobre o VPC Service Controls

O Dataplex Universal Catalog não viola os perímetros do VPC Service Controls. Antes de adicionar um recurso ao lake, verifique se o bucket ou conjunto de dados subjacente está na mesma rede do VPC Service Controls que o lake.

Para mais informações, consulte VPC Service Controls com o Dataplex Universal Catalog.

Adicionar um recurso

Se não houver sobreposição entre a região do lake do Dataplex Universal Catalog e uma das regiões do bucket do Cloud Storage, não será possível adicionar o bucket a uma zona no lake.

Para saber mais sobre a localização regional de um recurso do Cloud Storage e como o Dataplex Universal Catalog processa a localização de um bucket ao criar o conjunto de dados de publicação, consulte Recursos regionais.

Para adicionar um recurso, siga estas etapas:

Console

  1. No console Google Cloud , acesse a página Lakes do Universal Catalog do Dataplex.

    Acessar lagos

  2. Clique no lake em que você quer adicionar um bucket do Cloud Storage ou um conjunto de dados do BigQuery. A página do lago é aberta.

  3. Na guia Zonas, clique no nome da zona de dados a que você quer adicionar o recurso. A página da zona de dados é aberta.

  4. Na guia Recursos, clique em + Adicionar recursos. A página Adicionar recursos será aberta.

  5. Clique em Adicionar um recurso.

  6. No campo Tipo, selecione Conjunto de dados do BigQuery ou Bucket do Cloud Storage.

  7. No campo Nome de exibição, insira um nome para o novo recurso.

  8. No campo ID, insira um ID exclusivo para o recurso.

  9. Opcional: digite uma Descrição.

  10. No campo Conjunto de dados ou Bucket (com base no tipo de recurso), clique em Procurar para encontrar e selecionar seu bucket do Cloud Storage ou conjunto de dados do BigQuery.

  11. Opcional: se o tipo de recurso for Bucket do Cloud Storage e você quiser que o Catálogo Universal do Dataplex gerencie o recurso, marque a caixa de seleção Fazer upgrade para gerenciado. Se você escolher essa opção, não será necessário fazer upgrade do recurso separadamente. Essa opção não está disponível para conjuntos de dados do BigQuery.

  12. Clique em Continuar.

  13. Escolha os outros valores de parâmetro. Para mais informações sobre configurações de segurança, consulte Segurança do Lake.

  14. Clique em Enviar.

  15. Verifique se você voltou à página da zona de dados e se o novo recurso aparece na lista de recursos.

REST

Para adicionar um recurso, use o método lakes.zones.assets.create.

Quando a adição é bem-sucedida, a zona de dados entra automaticamente no estado ativo. Se isso falhar, a zona de dados será revertida para o estado íntegro anterior.

Fazer upgrade de um recurso de bucket do Cloud Storage

Quando você adiciona um recurso do tipo bucket do Cloud Storage, o Universal Catalog do Dataplex publica automaticamente tabelas externas do BigQuery para as tabelas hospedadas no recurso.

Ao fazer upgrade de um recurso de bucket do Cloud Storage, o Universal Catalog do Dataplex remove as tabelas externas anexadas e cria tabelas do BigLake. As tabelas BigLake oferecem suporte a uma segurança refinada melhor, incluindo mascaramento de dados dinâmicos, no nível da linha e da coluna.

Para fazer upgrade de um recurso de bucket do Cloud Storage, siga estas etapas:

Console

  1. No console Google Cloud , acesse a página Lakes do Universal Catalog do Dataplex.

    Acessar lagos

  2. Clique no nome do lake. A página do lago é aberta.

  3. Na guia Zonas, clique no nome da zona de dados. A página da zona de dados é aberta.

  4. Na guia Recursos, clique no nome do recurso que você quer fazer upgrade.

  5. Clique em Fazer upgrade para Managed.

REST

Para fazer upgrade de um recurso de bucket, use o método lakes.zones.assets.patch.

Fazer downgrade de um recurso de bucket do Cloud Storage

Quando você faz downgrade de um recurso de bucket do Cloud Storage, o Dataplex Universal Catalog remove as tabelas do BigLake anexadas e cria tabelas externas.

Console

  1. No console Google Cloud , acesse a página Lakes do Universal Catalog do Dataplex.

    Acessar lagos

  2. Clique no nome do lake. A página do lago é aberta.

  3. Na guia Zonas, clique no nome da zona de dados. A página da zona de dados é aberta.

  4. Na guia Recursos, clique no nome do recurso que você quer fazer upgrade.

  5. Clique em Fazer downgrade do modo gerenciado.

REST

Para fazer downgrade de um recurso de bucket, use o método lakes.zones.assets.patch. Verifique se você definiu o campo readAccessMode como DIRECT em ResourceSpec.

Remover um recurso

Remova o recurso da zona ou do data lake antes de anexá-lo a outro.

Para remover um recurso, siga estas etapas:

Console

  1. No console Google Cloud , acesse a página Lakes do Universal Catalog do Dataplex.

    Acessar lagos

  2. Clique no lake de que você quer remover um bucket do Cloud Storage ou um conjunto de dados do BigQuery. A página do lake é aberta.

  3. Na guia Zonas, clique no nome da zona de dados de que você quer remover o bucket do Cloud Storage ou o conjunto de dados do BigQuery. A página da zona de dados é aberta.

  4. Na guia Recursos, marque a caixa à esquerda do nome do recurso para selecioná-lo.

  5. Clique em Excluir recurso.

  6. Na caixa de diálogo de confirmação, clique em Excluir.

REST

Para remover um bucket, use o método lakes.zones,assets.delete.

A seguir