Pode usar o Dataplex Universal Catalog para criar uma arquitetura de malha de dados. Este início rápido mostra-lhe como usar as funcionalidades do Dataplex Universal Catalog, como um lago, zonas e recursos, para criar uma malha de dados.
Uma malha de dados é uma abordagem organizacional e técnica que descentraliza a propriedade dos dados entre os proprietários de dados do domínio. Estes proprietários fornecem os dados como um produto de forma padrão e facilitam a comunicação entre as diferentes partes da organização para distribuir conjuntos de dados em diferentes localizações. Saiba mais sobre as arquiteturas de malha de dados.
Crie um domínio
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique em Criar para criar um novo lago, que funciona como a sua malha de dados.
No campo Nome a apresentar, introduza
My data mesh
.Para Região, selecione
us-central1
.Selecione o serviço Dataproc Metastore que criou e configurou anteriormente como o metastore associado.
Clique em Criar.
Crie zonas no seu lago
Depois de criar um domínio através da criação de um lake do catálogo universal do Dataplex, pode alojar contratos de dados geridos e equipas individuais no domínio através de zonas. Existem dois tipos de zonas:
As zonas não processadas são normalmente usadas para armazenar dados em qualquer formato de origens externas no Cloud Storage. As zonas não processadas são úteis para dados que requerem processamento adicional antes de estarem prontos para consumo.
As zonas organizadas são usadas para dados estruturados no Cloud Storage que têm de estar em conformidade com determinados formatos de ficheiros e estão organizadas num esquema de diretórios compatível com o Hive. São mais úteis para dados que estão prontos para consumo e análise.
Cada domínio (por exemplo, sales
, customers
, products
) deve ter, pelo menos,
uma zona não processada e uma zona organizada.
As zonas adicionais são usadas para gerir contratos de dados entre equipas ou para fornecer uma discriminação mais detalhada para as equipas num determinado domínio. Por exemplo, gestão de inventário no domínio do produto. Os proprietários dos dados podem gerir os dados no respetivo domínio e aceder aos mesmos.
Na Google Cloud consola, navegue para o Dataplex Universal Catalog vista Gerir.
Clique no nome do lago (
My data mesh
) ao qual quer adicionar uma zona.No separador Zonas, clique em
Adicionar zona.No campo Nome a apresentar, introduza
My sub domain
. O Dataplex Universal Catalog gera automaticamente um ID para a sua zona.Para Tipo, selecione Zona bruta.
Clique em Criar.
Anexe recursos às suas zonas
Anexe recursos de dados à sua zona. Um recurso de dados, os recursos de armazenamento que contêm os seus dados, pode ser um contentor do Cloud Storage ou um conjunto de dados do BigQuery. Este é o passo final na criação da sua arquitetura de malha de dados.
Na vista Gerir do Dataplex Universal Catalog, clique no lake que criou (
My data mesh
).No separador Zonas, clique na zona (
My sub domain
) à qual quer adicionar o recurso.No separador Recursos, clique em
Adicionar recursosClique em Adicionar um recurso.
Para Tipo, selecione Contentor do Cloud Storage.
No campo Nome a apresentar , introduza
Data mesh asset
. O Dataplex Universal Catalog gera automaticamente um ID do recurso para si.No campo Bucket, clique em Procurar.
- Selecione o seu contentor na lista.
- Clique em Selecionar.
Clique em Concluído e, de seguida, em Continuar.
Clique em Continuar para aceitar as Definições avançadas predefinidas.
Clique em Enviar.