In diesem Dokument wird beschrieben, wie Sie einen Dataplex Universal Catalog-Lake erstellen. Sie können einen Lake in einer der Regionen erstellen, in denen Dataplex Universal Catalog unterstützt wird.
Hinweis
- Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie mit Google Cloudnoch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Zugriffssteuerung
Damit Sie Ihren Data Lake erstellen und verwalten können, müssen Ihnen die vordefinierten Rollen
roles/dataplex.adminoderroles/dataplex.editorzugewiesen sein. Weitere Informationen finden Sie unter Einzelne Rolle zuweisen.Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt an Ihren Lake anhängen möchten, weisen Sie dem folgenden Dataplex Universal Catalog-Dienstkonto eine Administratorrolle für den Bucket zu, indem Sie den folgenden Befehl ausführen:
gcloud dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Metastore erstellen
Sie können über Hive Metastore in Spark-Abfragen auf Metadaten des Dataplex Universal Catalog zugreifen, indem Sie eine Dataproc Metastore-Dienstinstanz mit Ihrem Dataplex Universal Catalog-Lake verknüpfen. Sie benötigen einen gRPC-fähigen Dataproc Metastore (Version 3.1.2 oder höher), der mit dem Dataplex Universal Catalog-Lake verknüpft ist.
Erstellen Sie einen Dataproc Metastore-Dienst.
Konfigurieren Sie die Dataproc Metastore-Dienstinstanz so, dass ein gRPC-Endpunkt (anstelle des standardmäßigen Thrift-Metastore-Endpunkts) verfügbar gemacht wird:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'gRPC-Endpunkt ansehen:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Lake erstellen
Console
Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Lakes auf.
Klicken Sie auf Erstellen.
Geben Sie einen Anzeigenamen ein
Die Lake-ID wird automatisch für Sie generiert. Wenn Sie möchten, können Sie Ihren eigenen Ausweis vorlegen. Weitere Informationen finden Sie unter Konvention für Ressourcennamen.
Optional: Geben Sie eine Beschreibung ein.
Geben Sie die Region an, in der die Instanz erstellt werden soll.
Bei Lakes, die in einer bestimmten Region erstellt wurden (z. B.
us-central1), können Sie sowohl Daten mit einer Region (us-central1) als auch Daten mit mehreren Regionen (us multi-region) je nach Zoneneinstellungen anhängen.Optional: Fügen Sie Ihrem Lake Labels hinzu.
Optional: Klicken Sie im Abschnitt Metastore auf das Menü Metastore-Dienst und wählen Sie den Dienst aus, den Sie im Abschnitt Vorbereitung erstellt haben.
Klicken Sie auf Erstellen.
gcloud
Verwenden Sie den Befehl gcloud dataplex lakes create, um einen Data Lake zu erstellen:
gcloud dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Ersetzen Sie Folgendes:
LAKE: Name des neuen SeesLOCATION: bezieht sich auf eine Google Cloud Regionk1=v1,k2=v2,k3=v3: verwendete Labels (falls zutreffend)METASTORE_SERVICE: der Dataproc Metastore-Dienst, falls erstellt
REST
Verwenden Sie zum Erstellen eines Data Lakes die Methode lakes.create.
Nächste Schritte
- Weitere Informationen zum Hinzufügen von Zonen zu einem Lake
- Informationen zum Anhängen von Assets an eine Zone
- Informationen zum Sichern Ihres Data Lake
- Informationen zum Verwalten Ihres Data Lake