Introdução à framework de resolução de entidades do BigQuery
Este documento descreve a arquitetura da framework de resolução de entidades do BigQuery. A resolução de entidades faz corresponder registos em dados partilhados onde não existe um identificador comum ou aumenta os dados partilhados através de um serviço de identidade de um parceiro. Google Cloud
Este documento destina-se a utilizadores finais de resolução de entidades e fornecedores de identidade. Para ver detalhes de implementação, consulte o artigo Configure e use a resolução de entidades no BigQuery.
Pode usar a resolução de entidades do BigQuery para dados preparados antes de os contribuir para uma sala de dados limpos. A resolução de entidades está disponível nos modelos de preços a pedido e de capacidade, bem como em todas as edições do BigQuery.
Vantagens
Os utilizadores finais beneficiam das seguintes vantagens da resolução de entidades:
- Resolva entidades no local sem taxas de transferência de dados. Um subscritor ou um Google Cloud parceiro faz a correspondência dos seus dados com a respetiva tabela de identidades e escreve os resultados da correspondência num conjunto de dados no seu Google Cloud projeto.
- Evite gerir trabalhos de extração, transformação e carregamento (ETL).
Os fornecedores de identidade beneficiam das seguintes vantagens da resolução de entidades:
- Oferecer a resolução de entidades como uma oferta de software como serviço (SaaS) gerido no Google Cloud Marketplace.
- Use gráficos de identidade e lógica de correspondência proprietários sem os revelar aos utilizadores.
Arquitetura
O BigQuery implementa a resolução de entidades através de chamadas de funções remotas que ativam processos de resolução de entidades no ambiente de um fornecedor de identidades. Os seus dados não são copiados nem movidos durante este processo. O diagrama e a explicação seguintes descrevem o fluxo de trabalho de resolução de entidades:
- O utilizador final concede à conta de serviço do fornecedor de identidade acesso de leitura ao respetivo conjunto de dados de entrada e acesso de escrita ao respetivo conjunto de dados de saída.
- O utilizador chama a função remota que faz corresponder os respetivos dados de entrada aos dados do gráfico de identidade do fornecedor. A função remota transmite os parâmetros correspondentes ao fornecedor.
- A conta de serviço do fornecedor lê e processa o conjunto de dados de entrada.
- A conta de serviço do fornecedor escreve os resultados da resolução de entidades no conjunto de dados de saída do utilizador.
As secções seguintes descrevem os componentes do utilizador final e os projetos do fornecedor.
Componentes do utilizador final
Os componentes do utilizador final incluem o seguinte:
- Chamada de função remota: uma chamada que executa um procedimento definido e implementado pelo fornecedor de identidade. Esta chamada inicia o processo de resolução de entidades.
- Conjunto de dados de entrada: o conjunto de dados de origem que contém os dados a fazer corresponder. Opcionalmente, o conjunto de dados pode conter uma tabela de metadados com parâmetros adicionais. Os fornecedores especificam os requisitos de esquema para conjuntos de dados de entrada.
- Conjunto de dados de saída: o conjunto de dados de destino onde o fornecedor armazena os resultados correspondentes como uma tabela de saída. Opcionalmente, o fornecedor pode escrever uma tabela de estado do trabalho que contenha detalhes do trabalho de resolução de entidades neste conjunto de dados. O conjunto de dados de saída pode ser igual ao conjunto de dados de entrada.
Componentes do Fornecedor de identidade
Os componentes do fornecedor de identidade incluem o seguinte:
- Plano de controlo: contém uma função remota do BigQuery que orquestra o processo de correspondência. Esta função pode ser implementada como uma tarefa do Cloud Run ou uma função do Cloud Run. O plano de controlo também pode conter outros serviços, como autenticação e autorização.
- Plano de dados: contém o conjunto de dados do gráfico de identidade e o procedimento armazenado que implementa a lógica de correspondência de fornecedores. O procedimento armazenado pode ser implementado como um procedimento armazenado SQL ou um procedimento armazenado Apache Spark. O conjunto de dados do gráfico de identidade contém as tabelas com as quais os dados do utilizador final são confrontados.
O que se segue?
- Saiba como configurar e usar a resolução de entidades.
- Saiba mais sobre as funções remotas.
- Saiba mais sobre os procedimentos armazenados.
- Saiba mais sobre as salas limpas de dados.