Questo documento descrive i concetti, i metodi e i casi d'uso per la ricerca della derivazione dei dati in più regioni geografiche in Knowledge Catalog (in precedenza Dataplex Universal Catalog).
La derivazione dei dati in Knowledge Catalog è un servizio regionalizzato. I dati di derivazione, inclusi link, processi ed eventi, vengono registrati e archiviati nella posizione geografica specifica in cui si è verificata la trasformazione o lo spostamento dei dati sottostanti.
Tuttavia, le pipeline di dati aziendali spesso si estendono su più progetti e regioni (ad esempio, una tabella BigQuery in us-central1 che copia i dati in un bucket di archiviazione in europe-west1). Per tracciare gli asset di dati in modo completo oltre questi confini, devi eseguire una ricerca della derivazione multiregionale. Google Cloud
Knowledge Catalog offre due metodi per scoprire e aggregare grafici di derivazione cross-region:
- Il metodo di automazione lato server che utilizza l'API
searchLineageStreaming(anteprima) - Consigliato - Il metodo di fan-out lato client che utilizza l'API
searchLinks
Concetti principali
Per comprendere l'individuazione della derivazione multiregionale, è utile capire come il sistema gestisce l'attraversamento del grafico:
Criteri radice: il punto di partenza della ricerca della derivazione, definito da uno o più nomi di asset (ad esempio una tabella BigQuery o un argomento Pub/Sub) o campi di colonne granulari.
Direzione: l'orientamento dell'attraversamento del grafico rispetto ai criteri principali. Puoi eseguire ricerche a monte (per vedere da dove provengono i dati) o a valle (per vedere dove vanno i dati).
Ricerca in ampiezza: il meccanismo architetturale utilizzato per trovare i nodi connessi. La ricerca attraversa il grafico della derivazione livello per livello, calcolando con precisione la profondità di esecuzione di ogni asset collegato oltre i confini regionali.
Confronto tra i metodi di ricerca
Sebbene entrambi i metodi consentano di ricostruire una visualizzazione interregionale dei dati, gestiscono il lavoro pesante in modo diverso:
| Funzionalità | Automazione lato server API searchLineageStreaming |
Fan-out lato client API searchLinks |
|---|---|---|
| Modello di esecuzione | Automazione lato server: il Google Cloud motore di routing attraversa più regioni in modo nativo. | Orchestrazione lato client: lo script dell'applicazione deve eseguire un ciclo e gestire manualmente le richieste. |
| Overhead della richiesta | Singola richiesta API: una singola chiamata HTTP POST avvia la
ricerca multiregionale. |
Più richieste API: richiede una chiamata HTTP separata per ogni regione e ogni livello del grafico. |
| Gestione delle risposte | Stream in tempo reale: i risultati vengono inviati al client man mano che vengono trovati, evitando timeout. | Payload statici: i singoli array JSON devono essere ricevuti, raccolti e uniti manualmente. |
| Grafici profondi (più di 2 livelli) | Gestisce automaticamente grafici di derivazione nidificati e profondi fino a 100 livelli. | Soffre del problema delle query N+1; richiede round trip iterativi e lenti dal client. |
Scegliere il metodo giusto per il tuo caso d'uso
Esamina gli scenari seguenti per determinare quale metodo di ricerca multiregionale è più adatto al tuo carico di lavoro.
Scegli il metodo API di streaming per i seguenti casi d'uso:
Trace grafici complessi o profondi: i dati si spostano attraverso più tabelle, bucket o pipeline intermedi in diverse regioni, richiedendo un attraversamento multilivello (
maxDepthmaggiore di 2).Monitora la derivazione a livello di colonna: vuoi monitorare i campi in diverse regioni o utilizzare ricerche con caratteri jolly (
*) per estrarre tutte le dipendenze delle colonne contemporaneamente.Mantenere un codice leggero: preferisci effettuare una singola chiamata API e lasciare cheGoogle Cloud gestisca il routing, la deduplicazione e l'assemblaggio del grafico.
Richiedi metadati della pipeline: vuoi recuperare facoltativamente i dettagli strutturali sui processi che eseguono le pipeline nello stesso payload della richiesta.
Scegli il metodo di fan-out lato client per i seguenti scenari:
Tracci solo una genealogia superficiale e a un solo passaggio: il grafico della genealogia non è complesso e devi solo cercare i collegamenti diretti tra genitori e figli (
maxDepthuguale a 1) in un numero ridotto e fisso di regioni note.Lavori all'interno di sistemi legacy rigorosi: hai un'applicazione di governance dei dati esistente basata in gran parte sull'endpoint standard
SearchLinkse vuoi mantenere la compatibilità strutturale con le versioni precedenti senza implementare consumer di risposte in streaming.
Passaggi successivi
Scopri come cercare la derivazione multiregionale utilizzando l'automazione lato server.
Scopri come cercare la derivazione multiregionale utilizzando il fan-out lato client.