É possível usar o Dataplex Universal Catalog para criar uma arquitetura de malha de dados. Este guia de início rápido mostra como usar os recursos do Dataplex Universal Catalog, como um lake, zonas e recursos, para criar uma malha de dados.
Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade dos dados entre os proprietários dos dados do domínio. Esses proprietários fornecem os dados como um produto de maneira padrão e facilitam a comunicação entre diferentes partes da organização para distribuir conjuntos de dados em diferentes locais. Saiba mais sobre arquiteturas de malha de dados.
Objetivos
Neste guia, você vai usar as entidades do Dataplex Universal Catalog para criar uma arquitetura de malha de dados:
- Crie um lake do Dataplex Universal Catalog que funcione como o domínio da sua malha de dados.
- Adicione zonas ao lake que representam equipes individuais em cada domínio e fornecem contratos de dados gerenciados.
- Anexe recursos que são mapeados para dados armazenados no Cloud Storage.
Custos
Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:
Para gerar uma estimativa de custo baseada na projeção de uso,
use a calculadora de preços.
Ao concluir as tarefas descritas neste documento, é possível evitar o faturamento contínuo excluindo os recursos criados. Para mais informações, consulte Limpeza.
Antes de começar
-
No Google Cloud console do, na página do seletor de projetos, escolha ou crie um Google Cloud projeto do.
Papéis necessários para selecionar ou criar um projeto
- Selecionar um projeto: a seleção de um projeto não exige um papel específico do IAM. É possível selecionar qualquer projeto em que você tenha recebido um papel.
-
Criar um projeto: para criar um projeto, é necessário ter o papel de criador de projetos
(
roles/resourcemanager.projectCreator), que contém aresourcemanager.projects.createpermissão. Saiba como conceder papéis.
-
Verifique se o faturamento está ativado para o Google Cloud projeto.
-
Ativar a API Dataplex
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.
Criar um bucket do Cloud Storage
Você precisa de um bucket do Cloud Storage para armazenar os recursos de dados da sua malha de dados.
Para criar um bucket do Cloud Storage, siga as instruções em Criar um bucket do Cloud Storage. Ao fazer isso, observe o seguinte:
- Nomeie o bucket.
- Em Tipo de local, escolha Região e selecione us-central1 (Iowa) no menu.
Criar um domínio
No Google Cloud console, acesse a página Lakes do Dataplex Universal Catalog.
Clique em Criar para criar um novo lake, que funciona como sua malha de dados.
No campo Nome de exibição, insira
My data mesh.Em Região, selecione
us-central1.Selecione o serviço Metastore do Dataproc que você criou e configurou anteriormente como o metastore associado.
Clique em Criar.
Criar zonas no lake
Depois de criar um domínio criando um lake do Dataplex Universal Catalog, é possível hospedar contratos de dados gerenciados e equipes individuais no domínio usando zonas. Há dois tipos de zonas:
As zonas de originais são normalmente usadas para armazenar dados em qualquer formato de fontes externas no Cloud Storage. As zonas brutas são úteis para dados que exigem processamento adicional antes de ficarem prontos para consumo.
As zonas selecionadas são usadas para dados estruturados no Cloud Storage que precisam estar em conformidade com determinados formatos de arquivo e são organizadas em um layout de diretório compatível com o Hive. Elas são mais úteis para dados prontos para consumo e análise.
Cada domínio (por exemplo, sales, customers, products) precisa ter pelo menos uma zona de originais e uma zona de curadoria.
Zonas adicionais são usadas para gerenciar contratos de dados entre equipes ou para fornecer uma detalhamento mais granular para equipes em um determinado domínio. Por exemplo, gerenciamento de inventário no domínio do produto. Os proprietários de dados podem gerenciar os dados no domínio e acessá-los.
No Google Cloud console, navegue até a visualização Gerenciar do Dataplex Universal Catalog.
Clique no nome do lake (
My data mesh) a que você quer adicionar uma zona.Na guia Zonas, clique em Adicionar zona.
No campo Nome de exibição, insira
My sub domain. O Dataplex Universal Catalog gera automaticamente um ID para sua zona.Em Tipo, selecione Zona de originais.
Clique em Criar.
Anexar recursos às zonas
Anexe recursos de dados à zona. Um recurso de dados, os recursos de armazenamento que contêm seus dados, pode ser um bucket do Cloud Storage ou um conjunto de dados do BigQuery. Esta é a etapa final na criação da arquitetura de malha de dados.
Na visualização Gerenciar do Dataplex Universal Catalog, clique no lake criado (
My data mesh).Na guia Zonas, clique na zona (
My sub domain) para adicionar o recurso.Na guia Recursos, clique em Adicionar recursos
Clique em Adicionar um recurso.
Em Tipo, selecione Bucket do Cloud Storage.
No campo Nome de exibição , insira
Data mesh asset. O Dataplex Universal Catalog gera automaticamente um código do recurso para você.No campo Bucket, clique em Procurar.
- Selecione o bucket na lista.
- Clique em Selecionar.
Clique em Concluído e em Continuar.
Clique em Continuar para aceitar as Configurações avançadas padrão.
Clique em Enviar.
Liberar espaço
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Excluir o projeto
- No Google Cloud console, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
- Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.
Excluir a arquitetura de malha de dados
No Google Cloud console, navegue até a visualização Gerenciar do Dataplex Universal Catalog.
Para o lake que você quer excluir, clique em Ver mais e em Excluir.
Para confirmar a ação, digite
deletee clique em Excluir lake.
A seguir
- Saiba mais sobre tarefas de tratamento de dados
- Saiba como descobrir dados
- Saiba como usar tarefas de qualidade de dados