Informazioni sulla ricerca della derivazione in più regioni

Questo documento descrive i concetti, i metodi e i casi d'uso per la ricerca della derivazione dei dati in più regioni geografiche in Knowledge Catalog (in precedenza Dataplex Universal Catalog).

La derivazione dei dati in Knowledge Catalog è un servizio regionalizzato. I dati di derivazione, inclusi link, processi ed eventi, vengono registrati e archiviati nella posizione geografica specifica in cui si è verificata la trasformazione o lo spostamento dei dati sottostanti.

Tuttavia, le pipeline di dati aziendali spesso si estendono su più progetti e regioni (ad esempio, una tabella BigQuery in us-central1 che copia i dati in un bucket di archiviazione in europe-west1). Per tracciare gli asset di dati in modo completo oltre questi confini, devi eseguire una ricerca della derivazione multiregionale. Google Cloud

Knowledge Catalog offre due metodi per scoprire e aggregare grafici di derivazione cross-region:

  • Il metodo di automazione lato server che utilizza l'API searchLineageStreaming (anteprima) - Consigliato
  • Il metodo di fan-out lato client che utilizza l'API searchLinks

Concetti principali

Per comprendere l'individuazione della derivazione multiregionale, è utile capire come il sistema gestisce l'attraversamento del grafico:

  • Criteri radice: il punto di partenza della ricerca della derivazione, definito da uno o più nomi di asset (ad esempio una tabella BigQuery o un argomento Pub/Sub) o campi di colonne granulari.

  • Direzione: l'orientamento dell'attraversamento del grafico rispetto ai criteri principali. Puoi eseguire ricerche a monte (per vedere da dove provengono i dati) o a valle (per vedere dove vanno i dati).

  • Ricerca in ampiezza: il meccanismo architetturale utilizzato per trovare i nodi connessi. La ricerca attraversa il grafico della derivazione livello per livello, calcolando con precisione la profondità di esecuzione di ogni asset collegato oltre i confini regionali.

Confronto tra i metodi di ricerca

Sebbene entrambi i metodi consentano di ricostruire una visualizzazione interregionale dei dati, gestiscono il lavoro pesante in modo diverso:

Funzionalità Automazione lato server
API searchLineageStreaming
Fan-out lato client
API searchLinks
Modello di esecuzione Automazione lato server: il Google Cloud motore di routing attraversa più regioni in modo nativo. Orchestrazione lato client: lo script dell'applicazione deve eseguire un ciclo e gestire manualmente le richieste.
Overhead della richiesta Singola richiesta API: una singola chiamata HTTP POST avvia la ricerca multiregionale. Più richieste API: richiede una chiamata HTTP separata per ogni regione e ogni livello del grafico.
Gestione delle risposte Stream in tempo reale: i risultati vengono inviati al client man mano che vengono trovati, evitando timeout. Payload statici: i singoli array JSON devono essere ricevuti, raccolti e uniti manualmente.
Grafici profondi (più di 2 livelli) Gestisce automaticamente grafici di derivazione nidificati e profondi fino a 100 livelli. Soffre del problema delle query N+1; richiede round trip iterativi e lenti dal client.

Scegliere il metodo giusto per il tuo caso d'uso

Esamina gli scenari seguenti per determinare quale metodo di ricerca multiregionale è più adatto al tuo carico di lavoro.

Scegli il metodo API di streaming per i seguenti casi d'uso:

  • Trace grafici complessi o profondi: i dati si spostano attraverso più tabelle, bucket o pipeline intermedi in diverse regioni, richiedendo un attraversamento multilivello (maxDepth maggiore di 2).

  • Monitora la derivazione a livello di colonna: vuoi monitorare i campi in diverse regioni o utilizzare ricerche con caratteri jolly (*) per estrarre tutte le dipendenze delle colonne contemporaneamente.

  • Mantenere un codice leggero: preferisci effettuare una singola chiamata API e lasciare cheGoogle Cloud gestisca il routing, la deduplicazione e l'assemblaggio del grafico.

  • Richiedi metadati della pipeline: vuoi recuperare facoltativamente i dettagli strutturali sui processi che eseguono le pipeline nello stesso payload della richiesta.

Scegli il metodo di fan-out lato client per i seguenti scenari:

  • Tracci solo una genealogia superficiale e a un solo passaggio: il grafico della genealogia non è complesso e devi solo cercare i collegamenti diretti tra genitori e figli (maxDepth uguale a 1) in un numero ridotto e fisso di regioni note.

  • Lavori all'interno di sistemi legacy rigorosi: hai un'applicazione di governance dei dati esistente basata in gran parte sull'endpoint standard SearchLinks e vuoi mantenere la compatibilità strutturale con le versioni precedenti senza implementare consumer di risposte in streaming.

Passaggi successivi