Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Introduzione al framework di risoluzione delle entità di BigQuery

Questo documento descrive l'architettura del framework di risoluzione delle entità BigQuery. La risoluzione delle entità mette in corrispondenza i record nei dati condivisi in cui non esiste un identificatore comune o aumenta i dati condivisi utilizzando un servizio di identità di un partner Google Cloud .

Questo documento è destinato agli utenti finali della risoluzione delle entità e ai provider di identità. Per i dettagli di implementazione, consulta Configurare e utilizzare la risoluzione delle entità in BigQuery.

Puoi utilizzare la risoluzione delle entità BigQuery per i dati preparati prima di inserirli in una data clean room. La risoluzione delle entità è disponibile nei modelli di prezzo on demand e basati sulla capacità e in tutte le versioni di BigQuery.

Vantaggi

Gli utenti finali ottengono i seguenti vantaggi dalla risoluzione delle entità:

Risolvi le entità sul posto senza costi di trasferimento dei dati. Un abbonato o unGoogle Cloud partner confronta i tuoi dati con la propria tabella delle identità e scrive i risultati della corrispondenza in un set di dati nel tuo progetto Google Cloud .
Evita di gestire i job di estrazione, trasformazione e caricamento (ETL).

I provider di identità ottengono i seguenti vantaggi dalla risoluzione delle entità:

Offri la risoluzione delle entità come offerta Software as a Service (SaaS) gestita su Google Cloud Marketplace.
Utilizza grafici delle identità e logica di corrispondenza proprietari senza rivelarli agli utenti.

Architettura

BigQuery implementa la risoluzione delle entità utilizzando chiamate di funzioni remote che attivano i processi di risoluzione delle entità nell'ambiente di un provider di identità. I tuoi dati non vengono copiati o spostati durante questa procedura. Il seguente diagramma e la relativa spiegazione descrivono il flusso di lavoro di risoluzione delle entità:

Un diagramma che mostra due sezioni principali: un progetto utente finale e un progetto del fornitore di identità.

L'utente finale concede all'account di servizio del provider di identità l'accesso in lettura al proprio set di dati di input e l'accesso in scrittura al proprio set di dati di output.
L'utente chiama la funzione remota che abbina i dati di input ai dati del grafico delle identità del fornitore. La funzione remota passa i parametri corrispondenti al provider.
Il account di servizio del fornitore legge ed elabora il set di dati di input.
Il account di servizio del fornitore scrive i risultati della risoluzione delle entità nel dataset di output dell'utente.

Le sezioni seguenti descrivono i componenti utente finale e i progetti del fornitore.

Componenti per gli utenti finali

I componenti per gli utenti finali includono:

Chiamata di funzione remota: una chiamata che esegue una procedura definita e implementata dal provider di identità. Questa chiamata avvia il processo di risoluzione delle entità.
Set di dati di input: il set di dati di origine che contiene i dati da corrispondere. Se vuoi, il set di dati può contenere una tabella di metadati con parametri aggiuntivi. I fornitori specificano i requisiti dello schema per i set di dati di input.
Set di dati di output: il set di dati di destinazione in cui il fornitore archivia i risultati corrispondenti come tabella di output. Facoltativamente, il fornitore può scrivere una tabella di stato del job che contiene i dettagli del job di risoluzione delle entità in questo dataset. Il set di dati di output può essere uguale a quello di input.

Componenti del provider di identità

I componenti del provider di identità includono quanto segue:

Piano di controllo: contiene una funzione remota BigQuery che orchestra il processo di corrispondenza. Questa funzione può essere implementata come job Cloud Run o come funzione Cloud Run. Il control plane può contenere anche altri servizi, come l'autenticazione e l'autorizzazione.
Data plane: contiene il set di dati del grafico delle identità e la stored procedure che implementa la logica di corrispondenza dei fornitori. La stored procedure può essere implementata come stored procedure SQL o come stored procedure Apache Spark. Il set di dati del grafico delle identità contiene le tabelle con cui vengono confrontati i dati degli utenti finali.

Passaggi successivi

Scopri come configurare e utilizzare la risoluzione delle entità.
Scopri di più sulle funzioni remote.
Scopri di più sulle stored procedure.
Scopri di più sulle data clean room.