Ce document décrit les zones Knowledge Catalog (anciennement Dataplex Universal Catalog) et explique comment les ajouter à votre lac Knowledge Catalog.
Présentation
Les zones Knowledge Catalog sont des entités nommées dans un lac Knowledge Catalog. Il s'agit de regroupements logiques de données non structurées, semi-structurées et structurées, composées de plusieurs éléments tels que des buckets Cloud Storage, des ensembles de données BigQuery et des tables BigQuery.
Un lac peut inclure une ou plusieurs zones. Bien qu'une zone ne puisse appartenir qu'à un seul lac, elle peut contenir des éléments qui pointent vers des ressources appartenant à des projets en dehors de son projet parent.
Vous pouvez sélectionner des configurations pour une zone dans Knowledge Catalog. Vous avez le choix entre deux types de zones : brutes et organisées.
Zones brutes
Les zones brutes stockent des données structurées, des données semi-structurées telles que des fichiers CSV et JSON, ainsi que des données non structurées dans n'importe quel format provenant de sources externes. Elles sont utiles pour préparer les données brutes avant d'effectuer des transformations. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.
Les zones brutes sont compatibles avec une granularité au niveau du bucket ou de l'ensemble de données pour les autorisations de lecture et d'écriture. Il n'existe aucune restriction concernant le type de données pouvant être stockées dans les zones brutes.
Zones organisées
Les zones organisées stockent des données structurées. Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery.
Les formats compatibles avec les buckets Cloud Storage incluent Parquet, Avro et ORC. Les zones organisées sont utiles pour préparer les données qui nécessitent un traitement avant d'être utilisées pour l'analyse, ou pour diffuser des données prêtes à être analysées.
Pour les tables BigQuery, vous devez disposer d'un schéma bien défini et de partitions de style Hive. Lorsque vous fournissez un schéma pour une table donnée dans une zone organisée, les données doivent être conformes au schéma défini pour la table sans dérive de schéma. Cela signifie que les données doivent être compatibles avec le schéma défini pour la table, et que les nouvelles partitions ne doivent pas avoir de schéma en conflit avec le schéma de la table.
Les zones organisées sont compatibles avec une granularité au niveau du bucket Cloud Storage ou de l'ensemble de données BigQuery pour les autorisations de lecture et d'écriture.
Avant de commencer
Avant de pouvoir ajouter des zones à un lac, vous devez en posséder un. Si vous ne l'avez pas encore fait, créez un lac.
La plupart des commandes gcloud lake nécessitent un emplacement. Vous pouvez spécifier l'emplacement en définissant le paramètre --location.
Rôles requis
Pour obtenir l'autorisation nécessaire pour ajouter une zone, demandez à votre administrateur de vous accorder le rôle IAM Administrateur Dataplex (roles/dataplex.admin) sur votre projet.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient l'
dataplex.lakes.create
autorisation,
qui est requise pour
ajouter une zone.
Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.
Ajouter une zone
Vous pouvez ajouter plusieurs zones à votre lac. Vous ne pouvez ajouter qu'une seule zone à la fois, mais vous pouvez continuer à utiliser votre lac pendant la création de la zone.
Pour ajouter une zone à un lac existant, procédez comme suit :
Console
Dans la Google Cloud console, accédez à la page Lacs de Knowledge Catalog.
Cliquez sur le nom du lac auquel vous souhaitez ajouter une zone.
Dans l'onglet Zones, cliquez sur Ajouter une zone.
Saisissez un Nom à afficher pour votre zone.
Cliquez sur le menu Type. Sélectionnez Zone brute ou Zone de données organisée. En savoir plus sur les types de zones compatibles.
Facultatif : Saisissez une description.
Sous Emplacements des données, sélectionnez Régional ou Multirégional. Vous ne pourrez pas modifier votre choix par la suite. Il n'est pas possible de mélanger des données régionales et multirégionales dans la même zone.
Facultatif : Activez la découverte des métadonnées, qui permet à Knowledge Catalog d'analyser et d'extraire automatiquement les métadonnées des données de votre zone :
Cliquez sur Paramètres de découverte.
Assurez-vous que l'option Activer la découverte de métadonnées est sélectionnée.
Facultatif : Sous Modèles d'inclusion, listez les fichiers à inclure dans les analyses de découverte.
Facultatif : Sous Modèles d'exclusion, listez les fichiers à exclure des analyses de découverte. Si vous saisissez des modèles d'inclusion et d'exclusion, les modèles d'exclusion sont appliqués en premier.
Cliquez sur le menu Répétitions et sélectionnez une fréquence. Si vous sélectionnez Personnalisé, dans le champ Planification, saisissez une planification de job. Sinon, la valeur Planification est automatiquement renseignée.
Cliquez sur le menu Fuseau horaire et sélectionnez un fuseau horaire.
Cliquez sur Créer.
REST
Pour ajouter une zone, utilisez la lakes.zones.create.
La création de la zone peut prendre quelques minutes.
Une fois la zone créée, elle passe automatiquement à l'état actif. En cas d'échec, le lac est restauré à son état précédent.
Une fois votre zone créée, vous pouvez mapper les données stockées dans des buckets Cloud Storage et des ensembles de données BigQuery en tant qu'éléments de votre zone. Pour en savoir plus, consultez Ajouter un élément.
Étape suivante
- Découvrez comment gérer les buckets.
- Découvrez comment créer un lac.
- Apprenez-en plus sur Cloud Audit Logging.