Este documento descreve a arquitetura e os conceitos principais dos produtos de dados no Dataplex Universal Catalog.
Um produto de dados é uma coleção lógica e organizada de recursos de dados, formalmente preparada para garantir que é detetável, fidedigna e acessível. As principais capacidades de um produto de dados incluem o seguinte:
- Organize os recursos do catálogo numa unidade lógica que resolva um problema empresarial específico e permita um tempo mais rápido para obter estatísticas.
- Distribua com contexto que inclua uma descrição, documentação e aspetos.
- Estabeleça confiança com contratos que permitem aos produtores de dados fornecer garantia aos consumidores de dados.
- Fornecer um fluxo de trabalho self-service para os consumidores de dados avaliarem os produtos de dados e acederem aos dados.
Conceitos-chave
Esta secção descreve os principais conceitos e terminologias relacionados com os produtos de dados.
Produto de dados
Um agrupamento lógico e organizado de recursos de dados, formalmente organizado para ser detetável, fidedigno e acessível para resolver problemas empresariais específicos.
Recurso
Um ponteiro para um recurso de dados físico, como um conjunto de dados, uma tabela ou uma vista do BigQuery. Um produto de dados contém um ou mais recursos.
Grupo de acesso
Os grupos Google são configurados pelos proprietários de produtos de dados e usados pelos consumidores de produtos de dados para pedir acesso. As autorizações de recursos são atribuídas a estes grupos de acesso.
Os grupos de acesso simplificam a gestão de autorizações para o seu produto de dados. Atuam como aliases fáceis de usar (como Reader ou Analyst) para os grupos de IAM subjacentes. Isto permite que os proprietários de produtos de dados atribuam
autorizações a um nível elevado e ajuda os consumidores a pedir o nível
de acesso correto.
Proprietário do produto de dados ou produtor de dados
O indivíduo ou a equipa responsável pela criação e gestão de produtos de dados. Isto inclui a gestão da qualidade, do acesso e da documentação.
Consumidor de produtos de dados
O indivíduo, a equipa ou o agente de IA que consome produtos de dados para gerar estatísticas.
Reduzir
Um contrato entre o proprietário do produto de dados e os respetivos consumidores. Este contrato define expetativas claras através da definição de termos específicos sobre a forma como os dados serão fornecidos e usados, como o respetivo cronograma de atualização e padrões de qualidade.
Exemplo de utilização
Considere um cientista de dados que analisa uma empresa de comércio eletrónico. O objetivo é
encontrar o valor de encomenda médio (AOV) por origem de tráfego e ver se existe uma
correlação entre a idade do utilizador e o tamanho da encomenda. Para o fazer, têm de combinar dados de várias tabelas, como order_details, user_traffic e user_demographic.
Numa configuração convencional, este processo cria atrito. Para gerar estatísticas, o cientista de dados tem primeiro de descobrir as tabelas corretas na vasta paisagem de dados da organização, contactar cada proprietário de dados, justificar o pedido de acesso e aguardar a aprovação.
Com os produtos de dados, os proprietários de dados podem simplificar esta experiência agrupando os recursos relevantes num único produto denominado "Dados da empresa de comércio eletrónico". Este pacote inclui o seguinte:
Recursos
- Tabelas do BigQuery
order_detailseuser_traffic(com dados de histórico de encomendas e origens de tráfego) - Visualização do BigQuery
user_demographics(que fornece detalhes do utilizador com PII excluídas)
- Tabelas do BigQuery
Grupos de acesso
- Grupos
ReadereWriterpredefinidos para simplificar os pedidos de acesso
- Grupos
Reduzir
- Um contrato que define a frequência de atualização dos dados (por exemplo, semanalmente às 08:00 AM PST)
Contexto
- Documentação com consultas de exemplo e outros detalhes
- Metadados adicionais para representar a sensibilidade dos dados
Os cientistas de dados podem agora descobrir este produto de dados como uma única unidade lógica. Isto permite-lhes gerar informações com confiança para responder a perguntas como "Qual é o valor médio da encomenda para cada origem de tráfego?", o que, em última análise, revela que origens geram os clientes de valor mais elevado.
Fluxo do utilizador do produto de dados
O ciclo de vida do produto de dados no catálogo universal do Dataplex envolve dois percursos do utilizador principais: um para o proprietário (ou produtor) do produto de dados que cria e gere os dados, e outro para o consumidor do produto de dados que os descobre e usa.
Percurso do proprietário do produto de dados
Este percurso centra-se na embalagem, na proteção e na gestão dos produtos de dados para garantir que são fidedignos e acessíveis.
Criação: defina o produto de dados e inclua recursos. Isto envolve as seguintes ações:
- Configure o nome exclusivo, o projeto, a região e a descrição.
- Adicione recursos, como tabelas, conjuntos de dados ou vistas do BigQuery.
- Configure grupos de acesso (por exemplo,
AnalystouReader) e mapeie-os para grupos Google subjacentes para simplificar a gestão de autorizações. - Atribuir as funções de IAM necessárias a estes grupos de acesso para os recursos específicos.
- Adicione um contrato (um aspeto do sistema) para comunicar formalmente a cadência, a frequência e o limite de atualização de dados acordados.
Para mais informações, consulte o artigo Crie produtos de dados.
Faça a gestão: atualize o produto de dados e garanta a capacidade de descoberta. Isto envolve as seguintes ações:
- Atualize detalhes básicos, recursos, autorizações e aspetos suplementares (metadados), bem como documentação de texto formatado.
- Conceder aos consumidores acesso para descobrirem e pedirem acesso a produtos de dados.
Para mais informações, consulte o artigo Faça a gestão de produtos de dados.
Percurso do consumidor do produto de dados
Este percurso centra-se na procura rápida de dados fidedignos e na obtenção das autorizações necessárias para os usar.
Descobrir: encontre dados relevantes e fidedignos para um problema empresarial específico. Isto implica as seguintes ações:
- Use a pesquisa do Dataplex Universal Catalog com palavras-chave ou linguagem natural para encontrar o produto de dados organizado.
- Reveja a vista geral, os recursos, o contrato e outros aspetos do produto de dados para determinar a sua adequação para utilização.
Para mais informações, consulte o artigo Pesquise produtos de dados.
Pedir acesso: peça autorização ao proprietário do produto de dados para aceder aos dados.
Para mais informações, consulte o artigo Peça acesso a produtos de dados.
Utilização: aceder aos recursos subjacentes para gerar estatísticas. Isto envolve a seguinte ação:
- Após a aprovação, pode aceder ao produto e aos respetivos recursos. Por exemplo, se o recurso for uma tabela do BigQuery, pode navegar para o BigQuery Studio e consultar os dados diretamente.
Para mais informações, consulte o artigo Consuma produtos de dados.
Recursos suportados
Um produto de dados pode ser composto por um ou mais recursos de dados. Na pré-visualização, são suportados os seguintes recursos de dados:
- Conjuntos de dados do BigQuery
- Tabelas do BigQuery
- Vistas do BigQuery
Limitações
- Os produtos de dados e os respetivos ativos subjacentes têm de residir na mesma Google Cloud localização.
- Um produto de dados pode conter um máximo de 10 recursos.
- Pode criar um máximo de 50 produtos de dados por projeto.
- A integração do fluxo de trabalho de aprovação de pedidos não está disponível na pré-visualização. No entanto, os consumidores de produtos de dados podem pedir acesso acionando notificações por email aos proprietários de produtos de dados.
O que se segue?
- Saiba como criar um produto de dados.
- Saiba mais sobre a gestão de produtos de dados.
- Saiba como pesquisar produtos de dados.
- Saiba como pedir acesso a produtos de dados.