Ce document explique comment créer un lac Knowledge Catalog (anciennement Dataplex Universal Catalog). Vous pouvez créer un lac dans n'importe quelle région où Knowledge Catalog est disponible.
Avant de commencer
- Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Contrôle des accès
Pour créer et gérer votre lac, assurez-vous de disposer des rôles prédéfinis
roles/dataplex.adminouroles/dataplex.editor. Pour en savoir plus, consultez Attribuer un rôle unique.Pour associer un bucket Cloud Storage d'un autre projet à votre lac, accordez au compte de service Knowledge Catalog un rôle d'administrateur pour le bucket en exécutant la commande suivante :
gcloud dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Créer un metastore
Vous pouvez accéder aux métadonnées Knowledge Catalog au moyen d'un metastore Hive dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Knowledge Catalog. Vous devez disposer d'un service Dataproc Metastore avec gRPC (version 3.1.2 ou ultérieure) associé au lac Knowledge Catalog.
Créez un service Dataproc Metastore.
Configurez l'instance de service Dataproc Metastore de sorte à exposer un point de terminaison gRPC (au lieu du point de terminaison de metastore par défaut Thrift) :
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'Affichez le point de terminaison gRPC :
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Créer un lac
Console
Dans la Google Cloud console, accédez à la page Lacs de Knowledge Catalog.
Cliquez sur Créer.
Saisissez un nom à afficher.
L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir un ID vous-même. Consultez la convention d'attribution des noms de ressources.
Facultatif : saisissez une description.
Spécifiez la Région dans laquelle créer le lac.
Pour les lacs créés dans une région précise (par exemple,
us-central1), vous pouvez associer des données régionales (us-central1) et des données multirégionales (us multi-region) en fonction des paramètres de zone.Facultatif : ajoutez des libellés à votre lac.
Facultatif : dans la section Metastore, cliquez sur le menu Service de metastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.
Cliquez sur Créer.
gcloud
Pour créer un lac, utilisez la commande gcloud dataplex lakes create :
gcloud dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Remplacez les éléments suivants :
LAKE: nom du nouveau lacLOCATION: renvoie à une région Google Cloudk1=v1,k2=v2,k3=v3: libellés utilisés (le cas échéant)METASTORE_SERVICE: service Dataproc Metastore, s'il a été créé
REST
Pour créer un lac, utilisez la méthode lakes.create.
Étape suivante
- Découvrez comment ajouter des zones à un lac.
- Découvrez comment associer des éléments à une zone.
- Apprenez à sécuriser votre lac.
- Apprenez à gérer votre lac.