Este documento descreve a arquitetura e os principais conceitos dos produtos de dados no Knowledge Catalog (antigo Dataplex Universal Catalog).
Um produto de dados é uma coleção lógica e selecionada de ativos de dados, formalmente empacotada para garantir que seja detectável, confiável e acessível. Os principais recursos de um produto de dados incluem o seguinte:
- Organizar os ativos do catálogo em uma unidade lógica que resolve um problema de negócios específico e permite um tempo mais rápido para insights.
- Distribuir com contexto que inclui uma descrição, documentação e aspectos.
- Estabelecer confiança com contratos que permitem que os produtores de dados ofereçam garantia aos consumidores de dados.
- Fornecer fluxo de trabalho de autoatendimento para que os consumidores de dados avaliem os produtos de dados e tenham acesso aos dados.
Principais conceitos
Esta seção descreve os principais conceitos e terminologias relacionados a produtos de dados.
Produto de dados
Um agrupamento lógico e selecionado de ativos de dados, formalmente empacotado para ser detectável, confiável e acessível para resolver problemas de negócios específicos.
Recurso
Um ponteiro para um recurso de dados físico, como um conjunto de dados, uma tabela ou uma visualização do BigQuery. Um produto de dados contém um ou mais recursos.
Grupo de acesso
Os grupos do Google são configurados pelos proprietários de produtos de dados e usados pelos consumidores de produtos de dados para solicitar acesso. As permissões de recursos são atribuídas a esses grupos de acesso.
Os grupos de acesso simplificam o gerenciamento de permissões para o produto de dados. Eles atuam como aliases fáceis de usar (como Reader ou Analyst) para grupos do IAM subjacentes. Isso permite que os proprietários de produtos de dados atribuam permissões em um nível alto e ajuda os consumidores a solicitar o nível correto de acesso.
Proprietário ou produtor de produto de dados
A pessoa ou equipe responsável pela criação e gerenciamento de produtos de dados. Isso inclui o gerenciamento de qualidade, acesso e documentação.
Consumidor de produto de dados
A pessoa, equipe ou agente de IA que consome produtos de dados para gerar insights.
Contrato
Um contrato entre o proprietário do produto de dados e os consumidores dele. Esse contrato define expectativas claras, definindo termos específicos sobre como os dados serão fornecidos e usados, como a programação de atualização e os padrões de qualidade.
Exemplo de caso de uso:
Considere um cientista de dados que analisa uma empresa de comércio eletrônico. O objetivo é encontrar o valor médio do pedido (VMP) por origem de tráfego e verificar se há uma correlação entre a idade do usuário e o tamanho do pedido. Para fazer isso, é necessário combinar dados de várias tabelas, como order_details, user_traffic e user_demographic.
Em uma configuração convencional, esse processo cria atrito. Para gerar insights, o cientista de dados precisa primeiro descobrir as tabelas corretas no vasto cenário de dados da organização, entrar em contato com cada proprietário de dados, justificar a solicitação de acesso e aguardar a aprovação.
Com produtos de dados, os proprietários de dados podem simplificar essa experiência, empacotando os recursos relevantes em um único produto chamado "Dados de negócios de e-commerce". Esse pacote inclui o seguinte:
Recursos
- Tabelas do BigQuery
order_detailseuser_traffic(que contêm dados históricos de pedidos e origens de tráfego) - Visualização do BigQuery
user_demographics(que fornece detalhes do usuário com informações de identificação pessoal excluídas)
- Tabelas do BigQuery
Grupos de acesso
- Grupos
ReadereWriterpredefinidos para simplificar as solicitações de acesso
- Grupos
Contrato
- Um contrato que define a frequência de atualização de dados (por exemplo, semanalmente às 8h PST)
Contexto
- Documentação com consultas de amostra e outros detalhes
- Metadados adicionais para descrever a sensibilidade dos dados
Os cientistas de dados agora podem descobrir esse produto de dados como uma única unidade lógica. Isso permite que eles gerem insights com confiança para responder a perguntas como "Qual é o valor médio do pedido para cada origem de tráfego?", revelando quais origens geram os clientes de maior valor.
Fluxo de usuários do produto de dados
O ciclo de vida do produto de dados no Knowledge Catalog envolve duas jornadas principais do usuário: uma para o proprietário (ou produtor) do produto de dados que cria e gerencia os dados, e outra para o consumidor do produto de dados que o descobre e usa.
Jornada do proprietário do produto de dados
Essa jornada se concentra em empacotar, proteger e governar os produtos de dados para garantir que eles sejam confiáveis e acessíveis.
Criar: defina o produto de dados e inclua recursos. Isso envolve as seguintes ações:
- Configure o nome, o projeto, a região e a descrição exclusivos.
- Adicione recursos, como tabelas, conjuntos de dados ou visualizações do BigQuery.
- Configure grupos de acesso (por exemplo,
AnalystouReader) e mapeie-os para grupos do Google subjacentes para simplificar o gerenciamento de permissões. - Atribua os papéis do IAM necessários a esses grupos de acesso para os recursos específicos.
- Adicione um contrato (um aspecto do sistema) para comunicar formalmente a cadência, a frequência e o limite de atualização de dados acordados.
Para mais informações, consulte Criar produtos de dados.
Gerenciar: atualize o produto de dados e garanta a capacidade de descoberta. Isso envolve as seguintes ações:
- Atualize detalhes básicos, recursos, permissões e aspectos complementares (metadados) e documentação de rich text.
- Conceda acesso aos consumidores para descobrir e solicitar acesso a produtos de dados.
Para mais informações, consulte Gerenciar produtos de dados.
Jornada do consumidor de produto de dados
Essa jornada se concentra em encontrar rapidamente dados confiáveis e receber as permissões necessárias para usá-los.
Descobrir: encontre dados relevantes e confiáveis para um problema de negócios específico. Isso envolve as seguintes ações:
- Use a pesquisa do Knowledge Catalog com palavras-chave ou linguagem natural para encontrar o produto de dados empacotado.
- Analise a visão geral, os recursos, o contrato e outros aspectos do produto de dados para determinar a adequação ao uso.
Para mais informações, consulte Pesquisar produtos de dados.
Solicitar acesso: peça permissão ao proprietário do produto de dados para acessar os dados.
Para mais informações, consulte Solicitar acesso a produtos de dados.
Usar: acesse os recursos subjacentes para gerar insights. Isso envolve a seguinte ação:
- Após a aprovação, você pode acessar o produto e os recursos dele. Por exemplo, se o recurso for uma tabela do BigQuery, você poderá navegar até o estúdio do BigQuery e consultar os dados diretamente.
Para mais informações, consulte Consumir produtos de dados.
Recursos aceitos
Um produto de dados pode ser composto por um ou mais recursos de dados. Na visualização, os seguintes recursos de dados são aceitos:
- Conjuntos de dados do BigQuery
- Tabelas do BigQuery
- Visualizações do BigQuery
Limitações
- Os produtos de dados e os recursos subjacentes precisam estar no mesmo Google Cloud local.
- Um produto de dados pode conter no máximo 10 recursos.
- É possível criar no máximo 50 produtos de dados por projeto por região.
- A integração do fluxo de trabalho de aprovação de solicitações não está disponível na visualização. No entanto, os consumidores de produtos de dados podem solicitar acesso acionando notificações por e-mail para os proprietários de produtos de dados.
A seguir
- Saiba como criar um produto de dados.
- Saiba mais sobre como gerenciar produtos de dados.
- Saiba como pesquisar produtos de dados.
- Saiba como solicitar acesso a produtos de dados.
- Saiba como usar o VPC Service Controls com produtos de dados.