Nesta página, explicamos como adicionar, fazer upgrade e remover buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos em zonas do Knowledge Catalog (antigo Dataplex Universal Catalog).
Visão geral
Um recurso é mapeado para dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos Google Cloud separados como recursos em uma única zona dentro de um lake. É possível anexar buckets do Cloud Storage ou conjuntos de dados do BigQuery para serem gerenciados no lake.
Antes de começar
Se ainda não tiver feito isso, crie um lake e uma zona nele.
A maioria dos comandos
gcloud lakesrequer um local. É possível especificar o local usando a sinalização--location.
Papéis e permissões necessárias
Para gerenciar recursos no Knowledge Catalog, é necessário ter permissões para que os usuários realizem ações de gerenciamento e para que a conta de serviço do Knowledge Catalog acesse os recursos subjacentes.
Para adicionar ou remover recursos, os usuários precisam receber papéis do IAM que contenham as permissões necessárias, como dataplex.assets.create e dataplex.assets.delete. Os papéis predefinidos Administrador do Dataplex (roles/dataplex.admin) e Editor do Dataplex (roles/dataplex.editor) ou os papéis legados Proprietário (roles/owner) e Editor (roles/editor) incluem essas permissões.
Quando você anexa um recurso (bucket do Cloud Storage ou conjunto de dados do BigQuery) a um lake, o Catálogo de dados usa a conta de serviço para interagir com ele.
- Se o recurso estiver no mesmo projeto que o lake, as permissões serão concedidas implicitamente à conta de serviço.
- Se o recurso estiver em um projeto diferente do lake, conceda explicitamente as permissões da conta de serviço para acessar esse recurso, conforme descrito nas seções a seguir.
Para mais informações, consulte IAM e controle de acesso do Knowledge Catalog.
Conceder papéis para buckets do Cloud Storage
Para anexar um bucket do Cloud Storage de outro projeto, conceda as permissões da conta de serviço do Knowledge Catalog (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) de uma das seguintes maneiras:
Permissões para envolvidos no projeto: conceda o papel
roles/dataplex.serviceAgentà conta de serviço no projeto que contém o bucket. Isso fornece ao catálogo do Knowledge permissões de administrador em todos os buckets do projeto, permitindo que ele gerencie permissões em buckets anexados.Permissões no nível do bucket: para ter um controle mais granular, use o comando
gcloud dataplex lakes authorizepara conceder à conta de serviço as permissões necessárias apenas em um bucket específico.
Conceder papéis para conjuntos de dados do BigQuery
Para anexar um conjunto de dados do BigQuery de outro projeto, conceda à conta de serviço do Knowledge Catalog a função de administrador do BigQuery (roles/bigquery.admin) no conjunto de dados.
Considerações sobre o VPC Service Controls
O Knowledge Catalog não viola os perímetros do VPC Service Controls. Antes de adicionar um recurso ao lake, verifique se o bucket ou o conjunto de dados subjacente está na mesma rede do VPC Service Controls que o lake.
Para mais informações, consulte VPC Service Controls com o Knowledge Catalog.
Adicionar um recurso
Se não houver sobreposição entre a região do data lake do Knowledge Catalog e uma das regiões dos buckets do Cloud Storage, não será possível adicionar o bucket a uma zona do data lake.
Para saber mais sobre a localização regional de um recurso do Cloud Storage e como o catálogo do Knowledge Catalog processa a localização de um bucket ao criar o conjunto de dados de publicação, consulte Recursos regionais.
Para adicionar um recurso, siga estas etapas:
Console
No console Google Cloud , acesse a página Lakes do Knowledge Catalog.
Clique no lake em que você quer adicionar um bucket do Cloud Storage ou um conjunto de dados do BigQuery. A página do data lake é aberta.
Na guia Zonas, clique no nome da zona de dados a que você quer adicionar o recurso. A página da zona de dados é aberta.
Na guia Recursos, clique em + Adicionar recursos. A página Adicionar recursos será aberta.
Clique em Adicionar um recurso.
No campo Tipo, selecione Conjunto de dados do BigQuery ou Bucket do Cloud Storage.
No campo Nome de exibição, insira um nome para o novo recurso.
No campo ID, insira um ID exclusivo para o recurso.
Opcional: digite uma Descrição.
No campo Conjunto de dados ou Bucket (com base no tipo de recurso), clique em Procurar para encontrar e selecionar seu bucket do Cloud Storage ou conjunto de dados do BigQuery.
Opcional: se o tipo de recurso for Bucket do Cloud Storage e você quiser que o Catálogo de dados gerencie o recurso, marque a caixa de seleção Fazer upgrade para gerenciado. Se você escolher essa opção, não será necessário fazer upgrade do recurso separadamente. Essa opção não está disponível para conjuntos de dados do BigQuery.
Clique em Continuar.
Escolha os outros valores de parâmetro. Para mais informações sobre configurações de segurança, consulte Segurança do Lake.
Clique em Enviar.
Verifique se você voltou à página da zona de dados e se o novo recurso aparece na lista.
REST
Para adicionar um recurso, use o método lakes.zones.assets.create.
Quando a adição é bem-sucedida, a zona de dados entra automaticamente no estado ativo. Se falhar, a zona de dados será revertida para o estado íntegro anterior.
Fazer upgrade de um recurso de bucket do Cloud Storage
Quando você adiciona um recurso do tipo bucket do Cloud Storage, o Knowledge Catalog publica automaticamente tabelas externas do BigQuery para as tabelas hospedadas no recurso.
Ao fazer upgrade de um recurso de bucket do Cloud Storage, o Knowledge Catalog remove as tabelas externas anexadas e cria tabelas do BigLake. As tabelas BigLake oferecem suporte a uma segurança refinada melhor, incluindo mascaramento de dados dinâmicos, no nível da linha e da coluna.
Para fazer upgrade de um recurso de bucket do Cloud Storage, siga estas etapas:
Console
No console Google Cloud , acesse a página Lakes do Knowledge Catalog.
Clique no nome do lake. A página do data lake é aberta.
Na guia Zonas, clique no nome da zona de dados. A página da zona de dados é aberta.
Na guia Recursos, clique no nome do recurso que você quer fazer upgrade.
Clique em Fazer upgrade para Managed.
REST
Para fazer upgrade de um recurso de bucket, use o método lakes.zones.assets.patch.
Fazer downgrade de um recurso de bucket do Cloud Storage
Ao fazer downgrade de um recurso de bucket do Cloud Storage, o Knowledge Catalog remove as tabelas do BigLake anexadas e cria tabelas externas.
Console
No console Google Cloud , acesse a página Lakes do Knowledge Catalog.
Clique no nome do lake. A página do data lake é aberta.
Na guia Zonas, clique no nome da zona de dados. A página da zona de dados é aberta.
Na guia Recursos, clique no nome do recurso que você quer fazer upgrade.
Clique em Fazer downgrade do modo gerenciado.
REST
Para fazer downgrade de um recurso de bucket, use o método
lakes.zones.assets.patch. Verifique se você definiu o campo readAccessMode como DIRECT em
ResourceSpec.
Remover um recurso
Remova o recurso da zona ou do data lake antes de anexá-lo a um diferente.
Para remover um recurso, siga estas etapas:
Console
No console Google Cloud , acesse a página Lakes do Knowledge Catalog.
Clique no lake de que você quer remover um bucket do Cloud Storage ou um conjunto de dados do BigQuery. A página do lake é aberta.
Na guia Zonas, clique no nome da zona de dados em que você quer remover o bucket do Cloud Storage ou o conjunto de dados do BigQuery. A página da zona de dados é aberta.
Na guia Recursos, marque a caixa à esquerda do nome do recurso para selecioná-lo.
Clique em Excluir recurso.
Na caixa de diálogo de confirmação, clique em Excluir.
REST
Para remover um bucket, use o método lakes.zones,assets.delete.
A seguir
- Saiba mais sobre descoberta de dados.
- Saiba como criar um data lake.
- Saiba mais sobre os registros de auditoria do Cloud.