Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

À propos de la recherche de traçabilité multirégionale

Lorsque vous gérez des données dans une organisation complexe, il est essentiel de comprendre leur traçabilité pour assurer une bonne gouvernance des données et une gestion efficace des données cloud. Ce guide explique comment utiliser la recherche multirégionale dans Knowledge Catalog (anciennement Dataplex Universal Catalog) pour suivre vos données au-delà des limites géographiques.

Par défaut, la traçabilité des données dans Knowledge Catalog est un service régional. Chaque fois que vos données sont déplacées ou transformées, les données de traçabilité résultantes, telles que les liens, les processus et les événements, sont stockées dans la région spécifique où cette action a eu lieu.

Toutefois, les pipelines de données réels couvrent souvent plusieurs Google Cloud projets et régions. Par exemple, vous pouvez avoir une table BigQuery dans us-central1 qui copie des données dans un bucket de stockage dans europe-west1. Pour suivre vos actifs de données au-delà de ces limites et créer des graphiques de traçabilité complets, vous devez effectuer une recherche multirégionale.

Knowledge Catalog vous offre deux façons de découvrir et de connecter ces graphiques de traçabilité interrégionaux :

La méthode d'automatisation côté serveur qui utilise l' searchLineageStreaming API (aperçu) – Recommandée
La méthode de distribution ramifiée côté client qui utilise l' searchLinks API

Concepts de base de la recherche de traçabilité multirégionale

Pour comprendre la découverte de la traçabilité multirégionale, il est utile de comprendre comment le système gère le balayage de graphe :

Critères racines : point de départ de votre recherche de traçabilité, défini par un ou plusieurs noms d'actifs (tels qu'une table BigQuery ou un sujet Pub/Sub) ou des champs de colonnes précis.
Direction : orientation du balayage de graphe par rapport aux critères racines. Vous pouvez effectuer une recherche en amont (pour voir d'où proviennent vos données) ou en aval (pour voir où vos données vont).
Recherche en largeur d'abord : mécanisme architectural utilisé pour trouver les nœuds connectés. La recherche parcourt le graphique de traçabilité couche par couche, en calculant avec précision la profondeur d'exécution de chaque actif connecté au-delà des limites régionales.

Comparaison des méthodes de recherche multirégionale

Bien que les deux méthodes vous permettent de reconstituer une vue interrégionale de vos données, elles gèrent différemment les tâches lourdes :

Fonctionnalité	Automatisation côté serveur API searchLineageStreaming	Distribution ramifiée côté client API searchLinks
Modèle d'exécution	Automatisation côté serveur : le Google Cloud moteur de routage parcourt plusieurs régions de manière native.	Orchestration côté client : le script de votre application doit effectuer une boucle et gérer manuellement les requêtes.
Surcharge de requête	Requête API unique : un seul appel HTTP `POST` démarre la recherche multirégionale.	Plusieurs requêtes API : nécessite un appel HTTP distinct pour chaque région et chaque couche de graphique.
Gestion des réponses	Flux en temps réel : les résultats sont envoyés au client au fur et à mesure qu'ils sont trouvés, ce qui évite les délais d'attente.	Charges utiles statiques : les tableaux JSON individuels doivent être reçus, collectés, et fusionnés manuellement.
Graphiques profonds (plus de deux couches)	Gère automatiquement les graphiques de traçabilité profonds et imbriqués jusqu'à 100 niveaux.	Souffre du problème de requête N+1 ; nécessite des allers-retours itératifs et lents depuis le client.

Choisir la bonne méthode de recherche multirégionale

Examinez les scénarios suivants pour déterminer la méthode de recherche multirégionale adaptée à votre charge de travail.

Choisissez la méthode d'API de streaming pour les cas d'utilisation suivants :

Suivre des graphiques profonds ou complexes : vos données passent par plusieurs tables, buckets ou pipelines intermédiaires dans différentes régions, ce qui nécessite un balayage à plusieurs niveaux (maxDepth supérieur à 2).
Suivre la traçabilité au niveau des colonnes : vous souhaitez suivre les champs dans plusieurs régions ou utiliser des recherches génériques (*) pour extraire toutes les dépendances de colonnes en une seule fois.
Maintenir un code léger : vous préférez effectuer un seul appel d’API et laisser Google Cloud gérer le routage, la déduplication et l’assemblage de graphiques.
Nécessiter des métadonnées de pipeline : vous souhaitez récupérer éventuellement des détails structurels sur les processus qui exécutent vos pipelines dans la même charge utile de requête.

Choisissez la méthode de distribution ramifiée côté client pour les scénarios suivants :

Vous ne suivez que la traçabilité superficielle à un seul saut : votre graphique de traçabilité n'est pas complexe et vous n'avez besoin de rechercher que les liens parents ou enfants directs (maxDepth est égal à 1) dans un petit nombre fixe de régions connues.
Vous travaillez dans des systèmes hérités stricts : vous disposez d'une application de gouvernance des données existante fortement axée sur le point de terminaison SearchLinks standard et vous souhaitez maintenir une rétrocompatibilité structurelle sans implémenter de consommateurs de réponses de streaming.

À propos de la recherche de traçabilité multirégionale Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Concepts de base de la recherche de traçabilité multirégionale

Comparaison des méthodes de recherche multirégionale

Choisir la bonne méthode de recherche multirégionale

Étape suivante

À propos de la recherche de traçabilité multirégionale