Sobre produtos de dados

Este documento descreve a arquitetura e os principais conceitos dos produtos de dados no Knowledge Catalog (antigo Dataplex Universal Catalog).

Um produto de dados é uma coleção lógica e selecionada de ativos de dados, formalmente empacotada para garantir que seja detectável, confiável e acessível. Os principais recursos de um produto de dados incluem o seguinte:

  • Organizar ativos do catálogo em uma unidade lógica que resolve um problema de negócios específico e permite um tempo mais rápido para insights.
  • Distribuir com contexto que inclui uma descrição, documentação e aspectos.
  • Estabelecer confiança com contratos que permitem que os produtores de dados ofereçam garantia aos consumidores de dados.
  • Fornecer fluxo de trabalho de autoatendimento para que os consumidores de dados avaliem os produtos de dados e tenham acesso aos dados.

Principais conceitos

Esta seção descreve os principais conceitos e terminologias relacionados a produtos de dados.

Produto de dados

Um agrupamento lógico e selecionado de ativos de dados, formalmente empacotado para ser detectável, confiável e acessível para resolver problemas de negócios específicos.

Recurso

Um ponteiro para um recurso de dados físico, como um conjunto de dados, uma tabela ou uma visualização do BigQuery. Um produto de dados contém um ou mais recursos.

Grupo de acesso

Os grupos de acesso simplificam o gerenciamento de permissões para o produto de dados. Eles mapeiam papéis fáceis de usar (como Reader ou Analyst) para Grupos do Google ou contas de serviço subjacentes. Essa abstração permite que os proprietários de produtos de dados gerenciem o acesso em um nível conceitual e ajuda os consumidores de produtos de dados a solicitar o nível de acesso adequado.

  • Os proprietários de produtos de dados configuram grupos de acesso e atribuem permissões de recursos específicas a eles.

  • Os consumidores de produtos de dados usam esses grupos para solicitar acesso ao produto de dados.

Proprietário ou produtor de produto de dados

A pessoa ou equipe responsável pela criação e gerenciamento de produtos de dados. Isso inclui o gerenciamento de qualidade, acesso e documentação.

Consumidor de produto de dados

A pessoa, equipe ou agente de IA que consome produtos de dados para gerar insights.

Contrato

Um contrato entre o proprietário do produto de dados e os consumidores dele. Esse contrato define expectativas claras, definindo termos específicos sobre como os dados serão fornecidos e usados, como a programação de atualização e os padrões de qualidade.

Exemplo de caso de uso:

Considere um cientista de dados que analisa uma empresa de comércio eletrônico. O objetivo é encontrar o valor médio do pedido (VMP) por origem de tráfego e verificar se há uma correlação entre a idade do usuário e o tamanho do pedido. Para fazer isso, é necessário combinar dados de várias tabelas, como order_details, user_traffic e user_demographics.

Em uma configuração convencional, esse processo cria atrito. Para gerar insights, o cientista de dados precisa primeiro descobrir as tabelas corretas no vasto cenário de dados da organização, entrar em contato com cada proprietário de dados, justificar a solicitação de acesso e aguardar a aprovação.

Com produtos de dados, os proprietários de dados podem simplificar essa experiência empacotando os recursos relevantes em um único produto chamado "Dados de negócios de comércio eletrônico". Esse pacote inclui o seguinte:

  • Recursos

    • Tabelas do BigQuery order_details e user_traffic (que contêm dados históricos de pedidos e origens de tráfego)
    • Visualização do BigQuery user_demographics (que fornece detalhes do usuário com informações de identificação pessoal excluídas)
  • Grupos de acesso

    • Grupos Reader e Writer predefinidos para simplificar as solicitações de acesso
  • Contrato

    • Um contrato que define a frequência de atualização de dados (por exemplo, semanalmente às 8h PST)
  • Contexto

    • Documentação com consultas de amostra e outros detalhes
    • Metadados adicionais para descrever a sensibilidade dos dados

Os cientistas de dados agora podem descobrir esse produto de dados como uma única unidade lógica. Isso permite que eles gerem insights com confiança para responder a perguntas como "Qual é o valor médio do pedido para cada origem de tráfego?", revelando quais origens geram os clientes de maior valor.

Fluxo de usuários do produto de dados

O ciclo de vida do produto de dados no Knowledge Catalog envolve duas jornadas principais do usuário: uma para o proprietário (ou produtor) do produto de dados que cria e gerencia os dados, e outra para o consumidor do produto de dados que o descobre e usa.

Jornada do proprietário do produto de dados

Essa jornada se concentra em empacotar, proteger e governar os produtos de dados para garantir que eles sejam confiáveis e acessíveis.

  • Criar: defina o produto de dados e inclua recursos. Isso envolve as seguintes ações:

    • Configure o nome, o projeto, a região e a descrição exclusivos.
    • Adicione recursos como tabelas, conjuntos de dados ou visualizações do BigQuery.
    • Configure grupos de acesso (por exemplo, Analyst ou Reader) e mapeie-os para Grupos do Google ou contas de serviço subjacentes para simplificar o gerenciamento de permissões.
    • Atribua os papéis do IAM necessários a esses grupos de acesso para os recursos específicos.
    • Adicione um contrato (um aspecto do sistema) para comunicar formalmente a cadência, a frequência e o limite de atualização de dados acordados.

    Para mais informações, consulte Criar produtos de dados.

  • Gerenciar: atualize o produto de dados e garanta a capacidade de descoberta. Isso envolve as seguintes ações:

    • Atualize detalhes básicos, recursos, permissões e aspectos complementares (metadados) e documentação rich text.
    • Conceda acesso aos consumidores para descobrir e solicitar acesso a produtos de dados.

    Para mais informações, consulte Gerenciar produtos de dados.

Jornada do consumidor do produto de dados

Essa jornada se concentra em encontrar rapidamente dados confiáveis e receber as permissões necessárias para usá-los.

  • Descobrir: encontre dados relevantes e confiáveis para um problema de negócios específico. Isso envolve as seguintes ações:

    • Use a pesquisa do Knowledge Catalog com palavras-chave ou linguagem natural para encontrar o produto de dados empacotado.
    • Analise a visão geral, os recursos, o contrato e outros aspectos do produto de dados para determinar a adequação ao uso.

    Para mais informações, consulte Pesquisar produtos de dados.

  • Solicitar acesso: peça permissão ao proprietário do produto de dados para acessar os dados.

    Para mais informações, consulte Solicitar acesso a produtos de dados.

  • Usar: acesse os recursos subjacentes para gerar insights. Isso envolve a seguinte ação:

    • Após a aprovação, você pode acessar o produto e os recursos dele. Por exemplo, se o recurso for uma tabela do BigQuery, você poderá navegar até o BigQuery Studio e consultar os dados diretamente.

    • Para aplicativos e fluxos de trabalho de desenvolvimento que operam fora do Google Cloud, é possível expor o produto de dados usando um gateway de metadados externo. Para mais informações, consulte Usar o servidor MCP remoto do Knowledge Catalog.

    Para mais informações, consulte Consumir produtos de dados.

Recursos com suporte

Um produto de dados pode ser composto por um ou mais ativos de dados. Há suporte para os seguintes ativos de dados:

  • Conjuntos de dados do BigQuery
  • Tabelas do BigQuery
  • Visualizações do BigQuery
  • Rotinas do BigQuery
  • Modelos do BigQuery
  • Tabelas externas do BigQuery
  • Conjuntos de dados da plataforma de agentes do Gemini Enterprise
  • Modelos da plataforma de agentes do Gemini Enterprise

Limitações

  • Local: os produtos de dados e os recursos subjacentes precisam estar no mesmo Google Cloud local.
  • Metadados automatizados: a documentação e os insights automatizados não oferecem suporte às multirregiões us (Estados Unidos) e eu (União Europeia).
  • Modelos do BigQuery: o acesso a modelos do BigQuery em um produto de dados é gerenciado por condições do IAM aplicadas à política do IAM do conjunto de dados pai. O compartilhamento de modelos do BigQuery está sujeito às limitações das condições do IAM.
  • Cotas e limites: para uma lista completa de limites de taxa de API e cotas de capacidade, consulte Cotas para solicitações de API de produtos de dados.

A seguir