Guide de démarrage rapide : créer et configurer un lac
Ce guide de démarrage rapide explique comment commencer à utiliser Knowledge Catalog (anciennement Dataplex Universal Catalog) dans la Google Cloud console. Il décrit comment créer un lac, ajouter une zone et associer un élément.
Avant de commencer
- Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin,roles/dataplex.editorCheck for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
- Click Grant access.
-
In the New principals field, enter your user identifier. This is typically the email address for a Google Account.
- Click Select a role, then search for the role.
- To grant additional roles, click Add another role and add each additional role.
- Click Save.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Make sure that you have the following role or roles on the project:
roles/dataplex.admin,roles/dataplex.editorCheck for the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
-
In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
- For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
-
In the Google Cloud console, go to the IAM page.
Go to IAM - Select the project.
- Click Grant access.
-
In the New principals field, enter your user identifier. This is typically the email address for a Google Account.
- Click Select a role, then search for the role.
- To grant additional roles, click Add another role and add each additional role.
- Click Save.
-
- Créez un bucket Cloud Storage :
- Dans la Google Cloud console, accédez à la page Buckets de Cloud Storage.
- Cliquez sur Créer.
- Sur la page Créer un bucket, saisissez les informations concernant votre bucket. Pour passer à l'étape suivante, cliquez sur Continuer.
- Pour Nommer votre bucket, saisissez un nom unique. N'incluez aucune information sensible dans le nom des buckets, car leur espace de noms est global et visible par tous.
-
Dans la section Choisir l'emplacement de stockage de vos données, procédez comme suit :
- Sélectionnez un type d'emplacement.
- Dans le menu déroulant Type d'emplacement, choisissez un emplacement où les données de votre bucket seront stockées de manière permanente.
- Si vous sélectionnez le type d'emplacement birégional, vous pouvez également choisir d'activer la réplication turbo à l'aide de la case à cocher correspondante.
- Pour configurer la réplication entre buckets, sélectionnez
Ajouter une réplication entre buckets via le service de transfert de stockage et
procédez comme suit :
Configurer la réplication entre buckets
- Dans le menu Bucket, sélectionnez un bucket.
Dans la section Paramètres de réplication , cliquez sur Configurer pour configurer les paramètres du job de réplication.
Le volet Configurer la réplication entre buckets s'affiche.
- Pour filtrer les objets à répliquer en fonction du préfixe de leur nom, saisissez le préfixe avec lequel vous souhaitez inclure ou exclure des objets, puis cliquez sur Ajouter un préfixe.
- Pour définir une classe de stockage pour les objets répliqués, sélectionnez-en une dans le menu Classe de stockage. Si vous ignorez cette étape, les objets répliqués utiliseront la classe de stockage par défaut du bucket de destination.
- Cliquez sur OK.
-
Dans la section Choisir comment stocker vos données, procédez comme suit :
- Dans la section Définir une classe par défaut, sélectionnez Standard.
- Pour activer l'espace de noms hiérarchique, dans la section Optimiser le stockage pour les charges de travail utilisant beaucoup de données, sélectionnez Activer l'espace de noms hiérarchique sur ce bucket.
- Dans la section Choisir comment contrôler l'accès aux objets, indiquez si votre bucket applique ou non la protection contre l'accès public, et sélectionnez une méthode de contrôle des accès pour les objets de votre bucket.
-
Dans la section Choisir comment protéger les données d'objet, procédez comme suit :
- Sous Protection des données , sélectionnez les options que vous
voulez définir pour votre bucket.
- Pour activer la suppression réversible, cochez la case Règle de suppression réversible (pour la récupération de données), puis spécifiez le nombre de jours pendant lesquels vous souhaitez conserver les objets après leur suppression.
- Pour définir la gestion des versions d'objets, cochez la case Gestion des versions d'objets (pour le contrôle des versions), puis spécifiez le nombre maximal de versions par objet et le nombre de jours après lesquels les versions obsolètes expirent.
- Pour activer la règle de conservation sur les objets et les buckets, cochez la case Conservation (pour la conformité), puis procédez comme suit :
- Pour activer le verrouillage de conservation des objets, cochez la case Activer la conservation des objets.
- Pour activer le verrouillage de bucket, cochez la case Définir une règle de conservation des buckets, puis choisissez une unité de temps et une durée pour votre période de conservation.
- Pour choisir comment vos données d'objet seront chiffrées, développez la section Chiffrement des données (), puis sélectionnez une méthode de chiffrement des données.
- Sous Protection des données , sélectionnez les options que vous
voulez définir pour votre bucket.
- Cliquez sur Créer.
Créer un lac
Un lac est une construction logique représentant un domaine de données ou une unité commerciale. Par exemple, si vous devez organiser des données en fonction de leur utilisation par les différents groupes, vous pouvez créer un lac pour chaque service (par exemple, Vente au détail, Service commercial et Finances).
Les étapes suivantes vous expliquent comment créer un lac à l'aide de la Google Cloud console.
Dans la Google Cloud console, accédez à la page Lacs de Knowledge Catalog.
Cliquez sur Créer.
Saisissez un Nom à afficher.
L'ID du lac est généré automatiquement.
Spécifiez la Région dans laquelle créer le lac.
Pour les lacs créés dans une région précise (par exemple,
us-central1), des données régionales (us-central1) et multirégionales (us multi-region) peuvent être associées en fonction des paramètres de zone.Cliquez sur Créer.
Ajouter une zone à votre lac
Après avoir créé votre lac, vous pouvez y ajouter des zones. Les zones sont des regroupements logiques au sein d'un lac. Elles sont utiles pour classer les données structurées et non structurées.
Dans la vue Gérer, cliquez sur le nom du lac auquel vous souhaitez ajouter une zone.
Cliquez sur Ajouter une zone.
Saisissez un Nom à afficher pour votre zone.
Cliquez sur le menu déroulant Type. Sélectionnez Zone brute ou Zone de données organisée. En savoir plus sur les types de zones
Sous Emplacements des données, sélectionnez Régional ou Multirégional. Vous ne pourrez pas modifier votre choix par la suite. Il n'est pas possible de mélanger des données régionales et multirégionales dans la même zone.
Cliquez sur Créer.
La création de la zone peut prendre quelques minutes.
Associer un élément
Les données peuvent être stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery, qui seront associés en tant qu'éléments aux zones de données d'un lac Knowledge Catalog.
Pour associer votre bucket Cloud Storage en tant qu'élément, procédez comme suit :
Dans la vue Gérer, cliquez sur le nom du lac auquel vous souhaitez associer un bucket Cloud Storage.
Dans l'onglet Zones, cliquez sur la zone à laquelle ajouter l'élément.
Dans l'onglet Éléments, cliquez sur Ajouter des éléments.
Cliquez sur Ajouter un élément.
Sous Type, sélectionnez Bucket de stockage.
Sous Nom à afficher, saisissez le nom de l'élément.
Dans le champ Bucket, cliquez sur Parcourir. Si vous disposez d'un bucket Cloud Storage, recherchez-le et cliquez sur Sélectionner. Si vous n'avez pas de bucket Cloud Storage, vous pouvez en créer un en cliquant sur le bouton .
Saisissez un nom unique pour votre bucket. Cliquez sur Continuer.
Sélectionnez un type d'emplacement. Cliquez sur Continuer.
Choisissez une classe de stockage par défaut pour vos données Cliquez sur Continuer.
Choisissez un niveau de contrôle des accès. Cliquez sur Continuer.
Choisissez une option de protection des données ou Aucune. Cliquez sur Continuer.
Cliquez sur Créer.
Cliquez sur Sélectionner.
Cliquez sur OK.
Cliquez sur Continuer.
Sous Paramètres de découverte, sélectionnez Hériter pour hériter des paramètres de découverte configurés au niveau de la zone.
Cliquez sur Continuer.
Sous Ajouter des éléments, cliquez sur Envoyer.
Patientez pendant la création de l'élément.
Pour utiliser votre lac, consultez la section Étapes suivantes. Sinon, supprimez les ressources que vous avez créées en suivant les étapes de la section Effectuer un nettoyage.
Effectuer un nettoyage
Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre Google Cloud compte pour les ressources utilisées sur cette page, procédez comme suit :
- Dans la Google Cloud console, accédez à la page Gérer les ressources.
- Si le projet que vous envisagez de supprimer est associé à une organisation, développez la liste Organisation dans la colonne Nom.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez Arrêter pour supprimer le projet.
Vous pouvez également supprimer les ressources utilisées dans ce tutoriel. Un lac n'est supprimé que lorsque vous avez supprimé toutes ses ressources de zone de données. De même, une zone de données n'est supprimée que si vous supprimez toutes ses ressources d'éléments.
Dissocier le bucket de stockage
Pour dissocier l'élément Knowledge Catalog que vous avez créé, procédez comme suit :
Dans la Google Cloud console, accédez à la page Lacs de Knowledge Catalog.
Cliquez sur le nom du lac que vous avez créé.
Dans l'onglet Zones, cliquez sur le nom de la zone que vous avez créée.
Dans l'onglet Éléments, cochez la case située à gauche du nom du bucket pour sélectionner l'élément à dissocier.
Cliquez sur Supprimer l'élément.
Cliquez sur Supprimer pour confirmer la dissociation.
Supprimer la zone
Pour supprimer la zone Knowledge Catalog que vous avez créée, procédez comme suit :
Dans la Google Cloud console, accédez à la page Lacs de Knowledge Catalog.
Cliquez sur le lac que vous avez créé.
Dans l'onglet Zones, cochez la case située à gauche du nom de la zone à supprimer pour la sélectionner.
Cliquez sur Supprimer la zone.
Cliquez sur Supprimer pour confirmer la suppression.
Supprimer le lac de données
Les étapes suivantes vous expliquent comment supprimer le lac Knowledge Catalog que vous avez créé.
Dans la Google Cloud console, accédez à la page Lacs de Knowledge Catalog.
Cliquez sur le lac que vous avez créé.
En haut de la page, cliquez sur Supprimer.
Pour confirmer la suppression, saisissez "delete" dans le champ.
Cliquez sur Supprimer le lac de données pour confirmer la suppression.