Questo documento descrive come creare un lake Dataplex Universal Catalog. Puoi creare un lake in una qualsiasi delle regioni che supportano Dataplex Universal Catalog.
Prima di iniziare
- Accedi al tuo Google Cloud account. Se non hai mai utilizzato Google Cloud, crea un account per valutare il rendimento dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Controllo degli accessi
Per creare e gestire il lake, assicurati di avere i ruoli predefiniti
roles/dataplex.adminoroles/dataplex.editorconcessi. Per ulteriori informazioni, consulta Concedi un singolo ruolo.Per collegare un bucket Cloud Storage di un altro progetto al lake, concedi al seguente account di servizio Dataplex Universal Catalog un ruolo di amministratore sul bucket eseguendo il seguente comando:
gcloud dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Crea un metastore
Puoi accedere ai metadati di Dataplex Universal Catalog utilizzando Hive Metastore in query Spark associando un'istanza del servizio Dataproc Metastore al lake Dataplex Universal Catalog. Devi avere un Dataproc Metastore abilitato per gRPC (versione 3.1.2 o successive) associato al lake Dataplex Universal Catalog.
Crea un servizio Dataproc Metastore.
Configura l'istanza del servizio Dataproc Metastore in modo che esponga un endpoint gRPC (anziché l'endpoint Thrift Metastore predefinito):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'Visualizza l'endpoint gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Crea un lake
Console
Nella Google Cloud console, vai alla pagina Lake di Dataplex Universal Catalog.
Fai clic su Crea.
Inserisci un Nome visualizzato.
L'ID del lake viene generato automaticamente. Se preferisci, puoi fornire il tuo ID. Consulta Convenzione di denominazione delle risorse.
(Facoltativo) Inserisci una Descrizione.
Specifica la Regione in cui creare il lake.
Per i lake creati in una determinata regione (ad esempio
us-central1), puoi collegare i dati sia a singola regione (us-central1) che multiregionali (us multi-region) a seconda delle impostazioni della zona.(Facoltativo) Aggiungi etichette al lake.
(Facoltativo) Nella sezione Metastore , fai clic sul menu Servizio Metastore e seleziona il servizio che hai creato nella sezione Prima di iniziare.
Fai clic su Crea.
gcloud
Per creare un lake, utilizza il comando gcloud dataplex lakes create:
gcloud dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Sostituisci quanto segue:
LAKE: nome del nuovo lakeLOCATION: si riferisce a una Google Cloud regionek1=v1,k2=v2,k3=v3: etichette utilizzate (se presenti)METASTORE_SERVICE: il servizio Dataproc Metastore, se creato
REST
Per creare un lake, utilizza il lakes.create lakes.create.
Passaggi successivi
- Scopri come aggiungere zone a un lake.
- Scopri come collegare asset a una zona.
- Scopri come proteggere il lake.
- Scopri come gestire il lake.