Sobre produtos de dados

Este documento descreve a arquitetura e os principais conceitos de produtos de dados no Dataplex Universal Catalog.

Um produto de dados é uma coleção lógica e selecionada de ativos de dados, formalmente empacotada para garantir que seja detectável, confiável e acessível. As principais capacidades de um produto de dados incluem:

  • Organize os recursos do catálogo em uma unidade lógica que resolva um problema específico da empresa e permita insights mais rápidos.
  • Distribua com contexto que inclua uma descrição, documentação e aspectos.
  • Estabeleça confiança com contratos que permitam que os produtores de dados ofereçam garantias aos consumidores.
  • Ofereça um fluxo de trabalho de autoatendimento para que os consumidores de dados avaliem os produtos e tenham acesso aos dados.

Principais conceitos

Esta seção descreve os principais conceitos e terminologias relacionados a produtos de dados.

Produto de dados

Um agrupamento lógico e selecionado de recursos de dados, formalmente empacotados para serem detectáveis, confiáveis e acessíveis para resolver problemas de negócios específicos.

Recurso

Um ponteiro para um recurso de dados físico, como um conjunto de dados, tabela ou visualização do BigQuery. Um produto de dados contém um ou mais recursos.

Grupo de acesso

Os grupos do Google são configurados pelos proprietários de produtos de dados e usados pelos consumidores para solicitar acesso. As permissões de recursos são atribuídas a esses grupos de acesso.

Os grupos de acesso simplificam o gerenciamento de permissões para seu produto de dados. Eles funcionam como aliases fáceis de usar (como Reader ou Analyst) para grupos do IAM subjacentes. Isso permite que os proprietários de produtos de dados atribuam permissões em um nível alto e ajuda os consumidores a solicitar o nível correto de acesso.

Proprietário ou produtor de produto de dados

A pessoa ou equipe responsável pela criação e gestão de produtos de dados. Isso inclui o gerenciamento de qualidade, acesso e documentação.

Consumidor de produtos de dados

O indivíduo, a equipe ou o agente de IA que consome produtos de dados para gerar insights.

Contrato

Um contrato entre o proprietário do produto de dados e os consumidores dele. Esse contrato define expectativas claras ao definir termos específicos sobre como os dados serão fornecidos e usados, como programação de atualização e padrões de qualidade.

Exemplo de caso de uso:

Considere um cientista de dados analisando uma empresa de e-commerce. O objetivo é encontrar o valor médio do pedido (VMP) por origem de tráfego e verificar se há uma correlação entre a idade do usuário e o tamanho do pedido. Para isso, eles precisam combinar dados de várias tabelas, como order_details, user_traffic e user_demographic.

Em uma configuração convencional, esse processo cria atrito. Para gerar insights, o cientista de dados precisa primeiro descobrir as tabelas corretas no vasto cenário de dados da organização, entrar em contato com cada proprietário de dados, justificar a solicitação de acesso e aguardar a aprovação.

Com os produtos de dados, os proprietários podem simplificar essa experiência agrupando os recursos relevantes em um único produto chamado "Dados comerciais de e-commerce". Este pacote inclui o seguinte:

  • Recursos

    • Tabelas do BigQuery order_details e user_traffic (com dados históricos de pedidos e origens de tráfego)
    • Visualização do BigQuery user_demographics (fornecendo detalhes do usuário com dados pessoais excluídos)
  • Grupos de acesso

    • Grupos predefinidos de Reader e Writer para simplificar as solicitações de acesso
  • Contrato

    • Um contrato que define a frequência de atualização dos dados (por exemplo, semanalmente às 8h PST)
  • Contexto

    • Documentação com exemplos de consultas e outros detalhes
    • Metadados adicionais para descrever a sensibilidade dos dados

Agora, os cientistas de dados podem descobrir esse produto como uma única unidade lógica. Assim, eles podem gerar insights com confiança para responder a perguntas como: "Qual é o valor médio do pedido para cada origem de tráfego?", revelando quais fontes geram os clientes de maior valor.

Fluxo de usuários do produto de dados

O ciclo de vida do produto de dados no Dataplex Universal Catalog envolve duas jornadas principais do usuário: uma para o proprietário (ou produtor) do produto de dados, que cria e gerencia os dados, e outra para o consumidor do produto de dados, que os descobre e usa.

Jornada do proprietário do produto de dados

Esta jornada se concentra em empacotar, proteger e governar os produtos de dados para garantir que eles sejam confiáveis e acessíveis.

  • Criação: defina o produto de dados e inclua recursos. Isso envolve as seguintes ações:

    • Configure o nome exclusivo, o projeto, a região e a descrição.
    • Adicione recursos como tabelas, conjuntos de dados ou visualizações do BigQuery.
    • Configure grupos de acesso (por exemplo, Analyst ou Reader) e mapeie-os para grupos do Google subjacentes para simplificar o gerenciamento de permissões.
    • Atribua os papéis do IAM necessários a esses grupos de acesso para os recursos específicos.
    • Adicione um contrato (um aspecto do sistema) para comunicar formalmente a cadência, a frequência e o limite de atualização de dados acordados.

    Para mais informações, consulte Criar produtos de dados.

  • Gerenciar: atualize o produto de dados e garanta a capacidade de descoberta. Isso envolve as seguintes ações:

    • Atualize detalhes básicos, recursos, permissões e aspectos complementares (metadados) e documentação em rich text.
    • Conceder acesso aos consumidores para descobrir e solicitar acesso a produtos de dados.

    Para mais informações, consulte Gerenciar produtos de dados.

Jornada do consumidor de produtos de dados

Essa jornada se concentra em encontrar rapidamente dados confiáveis e receber as permissões necessárias para usá-los.

  • Descobrir: encontre dados relevantes e confiáveis para um problema de negócios específico. Isso envolve as seguintes ações:

    • Use a Pesquisa do Dataplex Universal Catalog com palavras-chave ou linguagem natural para encontrar o produto de dados empacotado.
    • Analise a visão geral, os recursos, o contrato e outros aspectos do produto de dados para determinar se ele é adequado para uso.

    Para mais informações, consulte Pesquisar produtos de dados.

  • Solicitar acesso: peça permissão ao proprietário do produto de dados para acessar os dados.

    Para mais informações, consulte Solicitar acesso a produtos de dados.

  • Uso: acesse os recursos subjacentes para gerar insights. Isso envolve a seguinte ação:

    • Após a aprovação, você poderá acessar o produto e os recursos dele. Por exemplo, se o recurso for uma tabela do BigQuery, navegue até o BigQuery Studio e consulte os dados diretamente.

    Para mais informações, consulte Consumir produtos de dados.

Recursos compatíveis

Um produto de dados pode ser composto por um ou mais recursos de dados. Na prévia, os seguintes recursos de dados são aceitos:

  • Conjuntos de dados do BigQuery
  • Tabelas do BigQuery
  • Visualizações do BigQuery

Limitações

  • Os produtos de dados e os recursos subjacentes precisam estar no mesmoGoogle Cloud local.
  • Um produto de dados pode conter no máximo 10 recursos.
  • É possível criar no máximo 50 produtos de dados por projeto.
  • A integração do fluxo de trabalho de solicitação de aprovação não está disponível na versão prévia. No entanto, os consumidores de produtos de dados podem solicitar acesso acionando notificações por e-mail para os proprietários.

A seguir