À propos des lacs et des zones

Les entreprises disposent de données souvent réparties entre des lacs, des entrepôts et des magasins de données. Knowledge Catalog (anciennement Dataplex Universal Catalog) est une data fabric qui unifie les données distribuées et facilite la gouvernance des données en appliquant des constructions logiques à différents éléments de données.

Knowledge Catalog fait abstraction des systèmes de stockage de données sous-jacents à l'aide des constructions suivantes : lacs, zones, éléments et entrées.

Lacs

Un lac est une construction logique représentant un domaine de données ou une unité commerciale. Par exemple, pour organiser les données en fonction de leur utilisation par les différents groupes, vous pouvez configurer un lac pour chaque service (par exemple, Vente au détail, Service commercial et Finances).

Zones

Une zone est un sous-domaine d'un lac. Elle est utile pour classer les données en fonction des critères suivants :

  • Étape : par exemple, zone de destination, données brutes, données préparées pour l'analyse et données préparées pour les data scientists
  • Utilisation : par exemple, contrat de données
  • Restrictions : par exemple, contrôles de sécurité et niveaux d'accès des utilisateurs

Il existe deux types de zones :

  • Zone brute : contient des données dans leur format brut et n'est pas soumise à une vérification stricte du type.

  • Zone organisée : contient des données nettoyées, formatées et prêtes à être analysées. Les données sont organisées en colonnes, partitionnées avec Hive et stockées dans des fichiers Parquet, Avro ou Orc, ou dans des tables BigQuery. Les données sont soumises à une vérification du type, par exemple pour interdire l'utilisation de fichiers CSV, car ils ne sont pas aussi performants pour l'accès SQL.

Éléments

Un élément fait référence aux données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper les données stockées dans des projetsdistincts en tant qu'éléments dans une même zone. Google Cloud

Entrées

Une entité représente les métadonnées des données structurées et semi-structurées (par exemple, une table) et des données non structurées (par exemple, un ensemble de fichiers).

Étape suivante