Les entreprises disposent de données souvent réparties entre des lacs, des entrepôts et des magasins de données. Knowledge Catalog (anciennement Dataplex Universal Catalog) est une data fabric qui unifie les données distribuées et facilite la gouvernance des données en appliquant des constructions logiques à différents éléments de données.
Knowledge Catalog fait abstraction des systèmes de stockage de données sous-jacents à l'aide des constructions suivantes : lacs, zones, éléments et entrées.
Lacs
Un lac est une construction logique représentant un domaine de données ou une unité commerciale. Par exemple, pour organiser les données en fonction de leur utilisation par les différents groupes, vous pouvez configurer un lac pour chaque service (par exemple, Vente au détail, Service commercial et Finances).
Zones
Une zone est un sous-domaine d'un lac. Elle est utile pour classer les données en fonction des critères suivants :
- Étape : par exemple, zone de destination, données brutes, données préparées pour l'analyse et données préparées pour les data scientists
- Utilisation : par exemple, contrat de données
- Restrictions : par exemple, contrôles de sécurité et niveaux d'accès des utilisateurs
Il existe deux types de zones :
Zone brute : contient des données dans leur format brut et n'est pas soumise à une vérification stricte du type.
Zone organisée : contient des données nettoyées, formatées et prêtes à être analysées. Les données sont organisées en colonnes, partitionnées avec Hive et stockées dans des fichiers Parquet, Avro ou Orc, ou dans des tables BigQuery. Les données sont soumises à une vérification du type, par exemple pour interdire l'utilisation de fichiers CSV, car ils ne sont pas aussi performants pour l'accès SQL.
Éléments
Un élément fait référence aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper les données stockées dans des projetsdistincts en tant qu'éléments dans une même zone. Google Cloud
Entrées
Une entité représente les métadonnées des données structurées et semi-structurées (par exemple, une table) et des données non structurées (par exemple, un ensemble de fichiers).
Étape suivante
- Organisez vos données en lacs et en zones.
- Sécurisez votre lac.
- Affichez les métadonnées détectées à l'aide de la Google Cloud console.
- Affichez les métadonnées détectées à l'aide de l'API.