Este documento fornece orientações e práticas recomendadas para usar o Knowledge Catalog (antigo Dataplex Universal Catalog).
Escolher um projeto para o lake
Ao selecionar o projeto em que o lake será hospedado, considere os seguintes fatores:
O projeto precisa pertencer ao mesmo perímetro do VPC Service Controls que os dados destinados a estar no lake.
A conta de serviço do lake requer permissões de administrador nos buckets do Cloud Storage ou nos conjuntos de dados do BigQuery. O Knowledge Catalog cria tabelas externas no BigQuery para tabelas descobertas no Cloud Storage. O Knowledge Catalog também disponibiliza metadados tabela do BigQuery e tabelas descobertas no bucket do Cloud Storage em um serviço do metastore do Dataproc. O metastore do Dataproc está localizado no projeto do data lake.
Configurações e limitações do Cloud Storage
Região: o Knowledge Catalog oferece suporte a buckets de região única e multirregião em algumas Google Cloud regiões.
Classe de armazenamento: buckets do Cloud Storage de todas as classes de armazenamento são aceitos (Standard, Nearline, Coldline, Archive). Custos adicionais de recuperação de dados podem ser gerados para acessar ou verificar dados Nearline, Coldline ou Archive.
ACL do bucket: o Knowledge Catalog oferece suporte apenas a buckets do Cloud Storage com controles de acesso uniformes uniformes. Não há suporte para controles de acesso granulares.
Pagamentos do solicitante: buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado não são aceitos.
Orientações de segurança e permissões
O Knowledge Catalog exige a adição das contas de serviço do Knowledge Catalog como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.
O Knowledge Catalog permite que os analistas acessem buckets do Cloud Storage e conjuntos de dados do BigQuery em vários projetos. Para ativar esse acesso, o Knowledge Catalog exige a adição das contas de serviço do Knowledge Catalog com controles administrativos a esses projetos.
Para a descoberta, o Knowledge Catalog adiciona a conta de serviço do metastore do Dataproc aos buckets do Cloud Storage. Se você tiver seu próprio cluster do metastore do Dataproc, poderá fazer com que o lake do Knowledge Catalog use o serviço do metastore do Dataproc, que é uma opção ao criar o lake.
Se você optar por adicionar um bucket do Cloud Storage com acesso granular a um lake, o Knowledge Catalog vai fornecer acesso total a esse bucket pelo lake, porque as permissões do Knowledge Catalog são propagadas para todos os objetos no bucket. Se você precisar de acesso granular, recomendamos dividir os dados no bucket em vários buckets.