Introdução ao framework de resolução de entidades do BigQuery
Neste documento, descrevemos a arquitetura do framework de resolução de entidades do BigQuery. A resolução de entidades corresponde a registros em dados compartilhados sem um identificador comum ou aumenta os dados compartilhados usando um serviço de identidade de um parceiro Google Cloud .
Este documento é destinado a usuários finais da resolução de entidades e provedores de identidade. Para detalhes de implementação, consulte Configurar e usar a resolução de entidades no BigQuery.
É possível usar a resolução de entidade do BigQuery para dados preparados antes de contribuir para uma data clean room. A resolução de entidades está disponível nos modelos de preços sob demanda e por capacidade e em todas as edições do BigQuery.
Vantagens
Os usuários finais têm os seguintes benefícios com a resolução de entidades:
- Resolver entidades no local sem taxas de transferência de dados. Um assinante ou parceiro doGoogle Cloud faz a correspondência dos seus dados com a tabela de identidade dele e grava os resultados da correspondência em um conjunto de dados no seu projeto do Google Cloud .
- Evite gerenciar jobs de extração, transformação e carregamento (ETL).
Os provedores de identidade têm os seguintes benefícios com a resolução de entidades:
- Ofereça a resolução de entidades como um software como serviço (SaaS) gerenciado no Google Cloud Marketplace.
- Use gráficos de identidade reservados e faça a correspondência da lógica sem revelá-los aos usuários.
Arquitetura
O BigQuery implementa a resolução de entidades usando chamadas de função remotas que ativam processos de resolução de entidades no ambiente de um provedor de identidade. Seus dados não são copiados nem movidos durante esse processo. O diagrama e a explicação a seguir descrevem o fluxo de trabalho de resolução de entidades:
- O usuário final concede à conta de serviço do provedor de identidade acesso de leitura ao conjunto de dados de entrada e de gravação ao de saída.
- O usuário chama a função remota que corresponde os seus dados de entrada aos dados do gráfico de identidade do provedor. A função remota transmite parâmetros correspondentes ao provedor.
- A conta de serviço do provedor lê e processa o conjunto de dados de entrada.
- A conta de serviço do provedor grava os resultados da resolução de entidades no conjunto de dados de saída do usuário.
As seções a seguir descrevem os componentes do usuário final e os projetos do provedor.
Componentes do usuário final
Os componentes do usuário final incluem o seguinte:
- Chamada de função remota: uma chamada que executa um procedimento definido e implementado pelo provedor de identidade. Essa chamada inicia o processo de resolução de entidades.
- Conjunto de dados de entrada: o conjunto de origem que contém os dados a serem correspondidos. Como opção, o conjunto de dados pode conter uma tabela de metadados com parâmetros adicionais. Os provedores especificam requisitos de esquema para conjuntos de dados de entrada.
- Conjunto de dados de saída: o conjunto de dados de destino em que o provedor armazena os resultados correspondentes como uma tabela de saída. Opcionalmente, o provedor pode gravar uma tabela de status do job que contenha detalhes do job de resolução de entidades nesse conjunto de dados. O conjunto de dados de saída pode ser igual ao de entrada.
Componentes do provedor de identidade
Os componentes do provedor de identidade incluem o seguinte:
- Plano de controle: contém uma função remota do BigQuery que orquestra o processo de correspondência. Essa função pode ser implementada como um job do Cloud Run ou uma função do Cloud Run. O plano de controle também pode conter outros serviços, como autenticação e autorização.
- Plano de dados: contém o conjunto de dados do gráfico de identidade e o procedimento armazenado que implementa a lógica de correspondência do provedor. O procedimento armazenado pode ser implementado como um procedimento armazenado do SQL ou um procedimento armazenado do Apache Spark. O conjunto de dados do gráfico de identidade contém as tabelas com que os dados do usuário final correspondem.
A seguir
- Saiba como configurar e usar a resolução de entidades.
- Saiba mais sobre as funções remotas.
- Saiba mais sobre procedimentos armazenados.
- Saiba mais sobre as data clean rooms.