Créer un maillage de données

Vous pouvez utiliser Dataplex Universal Catalog pour développer une architecture de maillage de données. Ce guide de démarrage rapide vous explique comment créer un maillage de données à l'aide des fonctionnalités de Dataplex Universal Catalog, telles que les lacs, les zones et les éléments.

Un maillage de données est une approche technique et organisationnelle qui décentralise la propriété des données parmi les propriétaires de données d'un domaine. Ces propriétaires fournissent les données en tant que produit de manière standardisée et facilitent la communication entre les différentes parties de l'organisation pour distribuer les ensembles de données aux différents emplacements. En savoir plus sur les architectures de maillage de données

Créer un domaine

  1. Dans la console Google Cloud , accédez à la page Lacs de Dataplex Universal Catalog.

    Accéder à la page "Lacs"

  2. Cliquez sur Créer pour créer un lac qui servira de maillage de données.

  3. Dans le champ Nom à afficher, saisissez My data mesh.

  4. Pour Région, sélectionnez us-central1.

  5. Sélectionnez le service Dataproc Metastore que vous avez créé et configuré précédemment en tant que metastore associé.

  6. Cliquez sur Créer.

Créer des zones dans votre lac

Après avoir établi un domaine en créant un lac Dataplex Universal Catalog, vous pouvez ajouter des contrats de données gérés et des équipes distinctes au domaine en utilisant des zones. Il existe deux types de zones :

  • Les zones brutes sont généralement utilisées pour stocker des données issues de sources externes dans Cloud Storage, quel que soit leur format. Ces zones sont utiles pour les données qui nécessitent un traitement supplémentaire avant d'être prêtes à l'emploi.

  • Les zones organisées sont utilisées pour les données structurées dans Cloud Storage qui doivent être conformes à certains formats de fichiers et organisées dans une structure de répertoire compatible avec Hive. Ces zones sont particulièrement utiles pour les données prêtes à être utilisées et analysées.

Chaque domaine (par exemple, sales, customers, products) doit comporter au moins une zone brute et une zone organisée.

Des zones supplémentaires sont utilisées afin de gérer les contrats de données entre les équipes ou de permettre une répartition plus précise pour les équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine des produits. Les propriétaires de données peuvent gérer les données de leur domaine et y accéder.

  1. Dans la console Google Cloud , accédez à la vue Gérer de Dataplex Universal Catalog.

  2. Cliquez sur le nom du lac (My data mesh) auquel vous souhaitez ajouter une zone.

  3. Dans l'onglet Zones, cliquez sur Ajouter une zone .

  4. Dans le champ Nom à afficher, saisissez My sub domain. Dataplex Universal Catalog génère automatiquement un ID pour la zone.

  5. Pour Type, sélectionnez Zone brute.

  6. Cliquez sur Créer.

Associer des éléments à vos zones

Associez des éléments de données à votre zone. Un élément de données, c'est-à-dire les ressources de stockage qui contiennent vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape pour créer votre architecture de maillage de données.

  1. Dans la vue Gérer de Dataplex Universal Catalog, cliquez sur le lac que vous avez créé (My data mesh).

  2. Dans l'onglet Zones, cliquez sur la zone à laquelle ajouter l'élément (My sub domain).

  3. Dans l'onglet Éléments, cliquez sur  Ajouter des éléments.

  4. Cliquez sur Ajouter un élément.

  5. Pour Type, sélectionnez Bucket Cloud Storage.

  6. Dans le champ Nom à afficher, saisissez Data mesh asset. Dataplex Universal Catalog génère automatiquement un ID d'élément.

  7. Dans le champ Bucket, cliquez sur Parcourir.

    1. Sélectionnez votre bucket dans la liste.
    2. Cliquez sur Sélectionner.
  8. Cliquez sur OK, puis sur Continuer.

  9. Cliquez sur Continuer pour accepter les paramètres avancés par défaut.

  10. Cliquez sur Envoyer.