Gérer vos ressources Datastream à l'aide de Knowledge Catalog

Vous pouvez rechercher et gérer vos ressources Datastream à l'aide de Knowledge Catalog, une plate-forme permettant de stocker, de gérer et d'accéder à vos métadonnées. Utilisez Knowledge Catalog pour vous aider à :

  • Découvrez, analysez et comprenez les métadonnées de votre Datastream.
  • Parcourir vos ressources Datastream, comme les flux, les profils de connexion et les configurations de connectivité.
  • Améliorer la visibilité opérationnelle pour résoudre les problèmes et gérer les pipelines de données.
  • Établissement de mécanismes quasi en temps réel et périodiques pour une ingestion cohérente des métadonnées avec une synchronisation en direct et par lot. Pour en savoir plus, consultez Modes de synchronisation.

Modélisation Knowledge Catalog

Les ressources Datastream sont modélisées dans Knowledge Catalog sous un groupe d'entrées réservé et appartenant à Knowledge Catalog, ainsi que sous des types d'entrées spécifiques.

Entité du catalogue de connaissances Identifiant de ressource
Groupe d'entrées @datastream
Type d'entrée datastream-stream
Type d'entrée datastream-connection-profile
Type d'entrée datastream-private-connection

Types de découverte de métadonnées

La découverte des métadonnées Knowledge Catalog est un processus automatisé qui analyse les sources de données connectées (comme Datastream) pour identifier les composants de données et extraire leurs métadonnées techniques dans Knowledge Catalog.

Ce processus utilise la synchronisation en temps réel et périodique pour assurer la cohérence du catalogue avec le système source. Pour Datastream, les métadonnées de tous les flux, profils de connexion et configurations de connectivité privée sont détectées par défaut :

Type de ressource Métadonnées récupérées
Flux
  • Nom
  • Emplacement
  • État (par exemple, RUNNING, PAUSED, FAILED)
  • Stratégie de remplissage
  • Noms des profils de connexion source et de destination
  • Configurations de la source et de la destination
Profils de connexion
  • Nom
  • Emplacement
  • Type (par exemple, MYSQL, ORACLE, BIGQUERY)
  • Option de connectivité
  • Nom d'hôte, port et nom de la base de données
Configurations de connectivité privée
  • Nom
  • État
  • Méthode de connectivité (par exemple, Private Service Connect ou appairage de VPC)
  • Détails du réseau et du sous-réseau VPC

Modes de synchronisation

Datastream utilise les modes de synchronisation suivants pour assurer la cohérence du catalogue de connaissances avec le système source.

  • Synchronisation en direct : dans ce mode, Datastream publie des événements dans les sujets Pub/Sub lorsque des modifications de métadonnées se produisent. Cela permet au catalogue de connaissances de recevoir des mises à jour en temps quasi réel en s'abonnant à ces thèmes.
  • Synchronisation par lot : dans ce mode, Datastream publie régulièrement des exportations complètes de métadonnées (points de contrôle) dans des buckets Cloud Storage désignés, à partir desquels Knowledge Catalog ingère les données.

Knowledge Catalog accepte les recherches par mots clés et en langage naturel.

  • La recherche par mots clés vous permet de trouver des ressources à l'aide de mots clés et de filtres spécifiques, ainsi que d'une syntaxe définie. Par exemple, vous pouvez saisir system=Datastream AND type=Stream pour afficher tous les flux Datastream.
  • La recherche en langage naturel (version preview) utilise l'IA pour comprendre les requêtes sémantiques. Elle vous permet de trouver des ressources en utilisant un langage courant, sans avoir besoin d'une syntaxe complexe. Par exemple, vous pouvez saisir des requêtes telles que List all Datastream streams with BigQuery destination.

Pour en savoir plus, consultez la section Syntaxe de recherche pour Knowledge Catalog.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Activez l'API Dataplex pour le projet.

    Activer l'API Dataplex

  7. Vérifiez que vous disposez des autorisations nécessaires.

Rôles IAM requis

Cette section décrit les rôles et les autorisations nécessaires pour rechercher des ressources et accéder aux résultats de recherche.

Rôles requis pour accéder aux résultats de recherche

Pour rechercher et afficher les métadonnées Datastream dans Knowledge Catalog, les comptes principaux doivent disposer des autorisations nécessaires pour afficher les ressources Datastream, y compris l'autorisation dataplex.projects.search.

Pour accorder ces autorisations à des comptes principaux (utilisateurs, groupes ou comptes de service, par exemple), attribuez-leur le rôle IAM Lecteur Datastream (roles/datastream.viewer) sur le projet contenant les ressources Datastream.

Opération Knowledge Catalog Ressource Datastream Rôles ou autorisations requis
Rechercher des ressources Datastream Flux datastream.streams.get
Profils de connexion datastream.connectionProfiles.get
Configurations de connectivité privée datastream.privateConnections.get

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès. Pour en savoir plus sur les rôles IAM Datastream, consultez Rôles et autorisations IAM pour Datastream.

Rôles requis pour rechercher des entrées

Pour rechercher des entrées, vous devez disposer d'au moins l'un des rôles IAM suivants sur le projet utilisé pour la recherche :

Les autorisations applicables aux résultats de recherche sont vérifiées indépendamment du projet sélectionné. Pour en savoir plus, consultez Rechercher des éléments de données avec Knowledge Catalog.

Rechercher des composants Datastream

Utilisez la page de recherche Knowledge Catalog dans la console Google Cloud pour rechercher des éléments Datastream.

  1. Accédez à la page Rechercher du catalogue de connaissances.

    Accéder à la recherche

  2. Dans Choisir une plate-forme de recherche, sélectionnez Catalogue de connaissances.

  3. Dans le panneau Filtres, cliquez sur Systèmes, puis sélectionnez Datastream.

  4. Facultatif. Dans Alias de type, vous pouvez filtrer les résultats de la recherche pour un type spécifique d'élément Datastream en sélectionnant un ou plusieurs des alias de type suivants :

    • Flux de données : pour rechercher des flux Datastream.
    • Profil de connexion : pour rechercher des profils de connexion Datastream.
    • Connexion : pour rechercher des configurations de connectivité privée Datastream.

Vous pouvez utiliser le champ de recherche de Knowledge Catalog pour effectuer des requêtes de recherche par mot clé. Par exemple, vous pouvez saisir system=Datastream AND type=Stream pour afficher tous les flux Datastream.

Pour en savoir plus, consultez la section Syntaxe de recherche pour Knowledge Catalog.

Pour afficher tous les composants Datastream, saisissez system=Datastream.

Vous pouvez ensuite saisir des mots clés spécifiques. Par exemple, pour afficher tous les flux Datastream :

system=Datastream AND type=Stream

Pour afficher tous les profils de connexion, saisissez la requête suivante :

system=Datastream AND type=ConnectionProfile

Vous pouvez également utiliser des parenthèses et les opérateurs logiques AND et OR pour les expressions complexes. Pour en savoir plus sur les expressions que vous pouvez utiliser dans le champ de recherche, consultez la section Syntaxe de recherche pour Knowledge Catalog.

Vous pouvez saisir directement des requêtes de recherche pour des composants Datastream spécifiques dans le champ de recherche. Le format de la chaîne de requête est le suivant :

type="projects/dataplex-types/locations/global/entryTypes/QUERY_STRING"

Remplacez les éléments suivants :

  • QUERY_STRING : utilisez la liste suivante pour identifier une chaîne de requête en fonction du type d'élément Datastream que vous souhaitez interroger :

    • datastream-stream
    • datastream-connection-profile
    • datastream-private-connection

Voici un exemple de requête :

type="projects/dataplex-types/locations/global/entryTypes/datastream-stream"

Tarifs

Le stockage des métadonnées techniques Datastream dans Knowledge Catalog est sans frais. La tarification standard de Knowledge Catalog s'applique aux appels d'API et à l'enrichissement supplémentaire des métadonnées métier. Pour en savoir plus, consultez la page des tarifs du catalogue de connaissances.

Étapes suivantes