Guia de início rápido: criar e configurar um lake
Neste guia de início rápido, mostramos como usar o Dataplex Universal Catalog no consoleGoogle Cloud . Você vai aprender a criar um lake, adicionar uma zona e vincular um recurso.
Antes de começar
- Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin,roles/dataplex.editorCheck for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
- Click Grant access.
-
In the New principals field, enter your user identifier. This is typically the email address for a Google Account.
- Click Select a role, then search for the role.
- To grant additional roles, click Add another role and add each additional role.
- Click Save.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin,roles/dataplex.editorCheck for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
- Click Grant access.
-
In the New principals field, enter your user identifier. This is typically the email address for a Google Account.
- Click Select a role, then search for the role.
- To grant additional roles, click Add another role and add each additional role.
- Click Save.
-
- Crie um bucket do Cloud Storage:
- No console do Google Cloud , acesse a página Buckets do Cloud Storage.
- Clique em Criar.
- Na página Criar um bucket, insira as informações do seu bucket. Para ir à próxima
etapa, clique em Continuar.
- Em Nomear o bucket, insira um nome exclusivo. Não inclua informações confidenciais no nome do bucket já que o namespace dele é global e visível para o público.
-
Na seção Escolha onde armazenar seus dados, faça o seguinte:
- Selecione um tipo de local.
- Escolha um local onde os dados do bucket são armazenados permanentemente no menu suspenso Tipo de local.
- Se você selecionar o tipo de local birregional, também poderá ativar a replicação turbo usando a caixa de seleção relevante.
- Para configurar a replicação entre buckets, selecione
Adicionar replicação entre buckets usando o Serviço de transferência do Cloud Storage e
siga estas etapas:
Configurar a replicação entre buckets
- No menu Bucket, selecione um bucket.
Na seção Configurações de replicação, clique em Configurar para definir as configurações do job de replicação.
O painel Configurar a replicação entre buckets aparece.
- Para filtrar objetos a serem replicados por prefixo de nome de objeto, insira um prefixo com que você quer incluir ou excluir objetos e clique em Adicionar um prefixo.
- Para definir uma classe de armazenamento para os objetos replicados, selecione uma classe de armazenamento no menu Classe de armazenamento. Se você pular esta etapa, os objetos replicados vão usar a classe de armazenamento do bucket de destino por padrão.
- Clique em Concluído.
-
Na seção Escolha como armazenar seus dados, faça o seguinte:
- Na seção Definir uma classe padrão, selecione o seguinte: Padrão.
- Para ativar o namespace hierárquico, na seção Otimizar o armazenamento para cargas de trabalho com uso intensivo de dados, selecione Ativar namespace hierárquico neste bucket.
- Na seção Escolha como controlar o acesso a objetos, selecione se o bucket aplica ou não a prevenção de acesso público e selecione um método de controle de acesso para os objetos do bucket.
-
Na seção Escolha como proteger os dados do objeto, faça o
seguinte:
- Selecione qualquer uma das opções em Proteção de dados que
você quer definir para o bucket.
- Para ativar a exclusão reversível, clique na caixa de seleção Política de exclusão reversível (para recuperação de dados) e especifique o número de dias que você quer reter os objetos após a exclusão.
- Para definir o controle de versões de objetos, clique na caixa de seleção Controle de versões de objetos (para controle de versões) e especifique o número máximo de versões por objeto e o número de dias após os quais as versões não atuais expiram.
- Para ativar a política de retenção em objetos e buckets, clique na caixa de seleção Retenção (para compliance) e faça o seguinte:
- Para ativar o bloqueio de retenção de objetos, clique na caixa de seleção Ativar retenção de objetos.
- Para ativar o Bloqueio de buckets, clique na caixa de seleção Definir política de retenção de buckets e escolha uma unidade e um período de armazenamento para a retenção.
- Para escolher como os dados do objeto serão criptografados, expanda a seção Criptografia de dados () e selecione um método de Criptografia de dados.
- Selecione qualquer uma das opções em Proteção de dados que
você quer definir para o bucket.
- Clique em Criar.
Criar um lake
Um lake é uma construção lógica que representa um domínio de dados ou uma unidade de negócios. Por exemplo, se você precisar organizar dados com base no uso do grupo, crie um lake para cada departamento (por exemplo, varejo, vendas e finanças).
As etapas a seguir mostram como criar um lake usando o console Google Cloud .
No console Google Cloud , acesse a página Lakes do Dataplex Universal Catalog.
Clique em Criar.
Insira um Nome de exibição.
O ID do data lake é gerado automaticamente para você.
Especifique a Região em que o lake será criado.
Para lakes criados em uma determinada região (por exemplo,
us-central1), os dados de uma região (us-central1) e multirregionais (us multi-region) podem ser anexados, dependendo das configurações de zona.Clique em Criar.
Adicionar uma zona a um lake
Depois de criar um lake, é possível adicionar zonas a ele. As zonas são agrupamentos lógicos dentro de um lake, úteis para categorizar dados estruturados e não estruturados.
Na visualização Gerenciar, clique no nome do lake a que você quer adicionar uma zona.
Clique em Adicionar zona.
Insira um Nome de exibição para sua zona.
Clique no menu suspenso Tipo. Escolha Zona de originais ou Zona selecionada. Saiba mais sobre os tipos de zonas.
Em Locais dos dados, selecione Regional ou Multirregional. Essa escolha não pode ser alterada depois. Os dados de região única e multirregião não podem ser combinados na mesma zona.
Clique em Criar.
A criação da zona pode levar alguns minutos.
Anexar um recurso
Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery e anexados como recursos a zonas de dados em um lake do Dataplex Universal Catalog.
Para anexar seu bucket do Cloud Storage como um recurso, siga estas etapas:
Na visualização Gerenciar, clique no nome do lake a que você quer anexar um bucket do Cloud Storage.
Na guia Zonas, clique na zona em que você quer adicionar o recurso.
Na guia Recursos, clique em Adicionar recursos.
Clique em Adicionar um recurso.
Em Tipo, selecione Bucket do Storage.
Em Nome de exibição, insira um nome para o recurso.
No campo Bucket, clique em Procurar. Se você tiver um bucket do Cloud Storage, encontre-o e clique em Selecionar. Se você não tiver um bucket do Cloud Storage, clique no botão para criar um.
Digite um nome exclusivo para o bucket. Clique em Continuar.
Escolha um Tipo de local. Clique em Continuar.
Escolha uma classe de armazenamento padrão para seus dados. Clique em Continuar.
Escolha um nível de controle de acesso. Clique em Continuar.
Escolha uma opção de proteção de dados ou Nenhuma. Clique em Continuar.
Clique em Criar.
Clique em Selecionar.
Clique em Concluído.
Clique em Continuar.
Em Configurações de descoberta, selecione Herdar para herdar as configurações de descoberta no nível da zona.
Clique em Continuar.
Em Adicionar recursos, clique em Enviar.
Aguarde a conclusão da criação do recurso.
Para usar seu lake, consulte a seção Próximas etapas. Caso contrário, exclua os recursos criados seguindo as etapas de limpeza.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.
- No console Google Cloud , acesse a página Gerenciar recursos.
- Se o projeto que você planeja excluir estiver anexado a uma organização, expanda a lista Organização na coluna Nome.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Como alternativa, é possível excluir os recursos usados neste tutorial. Um lake não é excluído até que você exclua todos os recursos da zona de dados dele. Da mesma forma, uma zona de dados não é excluída, a menos que você exclua todos os recursos de ativos dela.
Remover o bucket de armazenamento
Para separar o recurso do Dataplex Universal Catalog que você criou, siga estas etapas:
No console Google Cloud , acesse a página Lakes do Dataplex Universal Catalog.
Clique no nome do lake que você criou.
Na guia Zonas, clique no nome da zona que você criou.
Na guia Recursos, marque a caixa à esquerda do nome do bucket para selecionar o recurso que você quer desvincular.
Clique em Excluir recurso.
Clique em Excluir para confirmar a remoção.
Excluir a zona
Para excluir a zona do Dataplex Universal Catalog que você criou, siga estas etapas:
No console Google Cloud , acesse a página Lakes do Dataplex Universal Catalog.
Clique no lake que você criou.
Na guia Zonas, marque a caixa à esquerda do nome da zona de dados para selecionar a zona que você quer excluir.
Clique em Excluir zona.
Clique novamente em Excluir para confirmar a ação.
Excluir o lake
As etapas a seguir mostram como excluir o lake do Dataplex Universal Catalog que você criou.
No console Google Cloud , acesse a página Lakes do Dataplex Universal Catalog.
Clique no lake que você criou.
Na parte de cima da página, clique em Excluir.
Para confirmar a exclusão, digite "delete" no campo.
Clique em Excluir lake para confirmar.