Introduzione al framework di risoluzione delle entità di BigQuery

Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità mette in corrispondenza i record nei dati condivisi in cui non esiste un identificatore comune o aumenta i dati condivisi utilizzando un servizio di identità di un partner Google Cloud .

Questo documento è destinato agli utenti finali della risoluzione delle entità e ai provider di identità. Per i dettagli di implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per i dati preparati prima di inserirli in una data clean room. La risoluzione delle entità è disponibile nei modelli di prezzo on demand e basati sulla capacità e in tutte le versioni di BigQuery.

Vantaggi

Gli utenti finali ottengono i seguenti vantaggi dalla risoluzione delle entità:

  • Risolvi le entità sul posto senza costi di trasferimento dei dati. Un abbonato o unGoogle Cloud partner confronta i tuoi dati con la propria tabella delle identità e scrive i risultati della corrispondenza in un set di dati nel tuo progetto Google Cloud .
  • Evita di gestire i job di estrazione, trasformazione e caricamento (ETL).

I provider di identità ottengono i seguenti vantaggi dalla risoluzione delle entità:

  • Offri la risoluzione delle entità come offerta Software as a Service (SaaS) gestita su Google Cloud Marketplace.
  • Utilizza grafici delle identità e logica di corrispondenza proprietari senza rivelarli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzioni remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. I tuoi dati non vengono copiati o spostati durante questa procedura. Il seguente diagramma e la relativa spiegazione descrivono il flusso di lavoro di risoluzione delle entità:

Un diagramma che mostra due sezioni principali: un progetto utente finale e un progetto del fornitore di identità.

  1. L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al proprio set di dati di input e l'accesso in scrittura al proprio set di dati di output.
  2. L'utente chiama la funzione remota che abbina i dati di input ai dati del grafico delle identità del fornitore. La funzione remota passa i parametri corrispondenti al provider.
  3. Il account di servizio del fornitore legge ed elabora il set di dati di input.
  4. Il account di servizio del fornitore scrive i risultati della risoluzione delle entità nel dataset di output dell'utente.

Le sezioni seguenti descrivono i componenti utente finale e i progetti del fornitore.

Componenti per gli utenti finali

I componenti per gli utenti finali includono:

  • Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia il processo di risoluzione delle entità.
  • Set di dati di input: il set di dati di origine che contiene i dati da corrispondere. Se vuoi, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I fornitori specificano i requisiti dello schema per i set di dati di input.
  • Set di dati di output: il set di dati di destinazione in cui il fornitore archivia i risultati corrispondenti come tabella di output. Facoltativamente, il fornitore può scrivere una tabella di stato del job che contiene i dettagli del job di risoluzione delle entità in questo dataset. Il set di dati di output può essere uguale a quello di input.

Componenti del provider di identità

I componenti del provider di identità includono quanto segue:

  • Piano di controllo: contiene una funzione remota BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come job Cloud Run o come funzione Cloud Run. Il control plane può contenere anche altri servizi, come l'autenticazione e l'autorizzazione.
  • Data plane: contiene il set di dati del grafico delle identità e la stored procedure che implementa la logica di corrispondenza dei fornitori. La stored procedure può essere implementata come stored procedure SQL o come stored procedure Apache Spark. Il set di dati del grafico delle identità contiene le tabelle con cui vengono confrontati i dati degli utenti finali.

Passaggi successivi