Creare un lake Dataplex Universal Catalog

Questo documento descrive come creare un lake Dataplex Universal Catalog. Puoi creare un lake in una qualsiasi delle regioni che supportano Dataplex Universal Catalog.

Prima di iniziare

  1. Accedi al tuo Google Cloud account. Se non hai mai utilizzato Google Cloud, crea un account per valutare il rendimento dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Controllo degli accessi

  1. Per creare e gestire il lake, assicurati di avere i ruoli predefiniti roles/dataplex.admin o roles/dataplex.editor concessi. Per ulteriori informazioni, consulta Concedi un singolo ruolo.

  2. Per collegare un bucket Cloud Storage di un altro progetto al lake, concedi al seguente account di servizio Dataplex Universal Catalog un ruolo di amministratore sul bucket eseguendo il seguente comando:

    gcloud dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Crea un metastore

Puoi accedere ai metadati di Dataplex Universal Catalog utilizzando Hive Metastore in query Spark associando un'istanza del servizio Dataproc Metastore al lake Dataplex Universal Catalog. Devi avere un Dataproc Metastore abilitato per gRPC (versione 3.1.2 o successive) associato al lake Dataplex Universal Catalog.

  1. Crea un servizio Dataproc Metastore.

  2. Configura l'istanza del servizio Dataproc Metastore in modo che esponga un endpoint gRPC (anziché l'endpoint Thrift Metastore predefinito):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Visualizza l'endpoint gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Crea un lake

Console

  1. Nella Google Cloud console, vai alla pagina Lake di Dataplex Universal Catalog.

    Vai a Lake

  2. Fai clic su Crea.

  3. Inserisci un Nome visualizzato.

  4. L'ID del lake viene generato automaticamente. Se preferisci, puoi fornire il tuo ID. Consulta Convenzione di denominazione delle risorse.

  5. (Facoltativo) Inserisci una Descrizione.

  6. Specifica la Regione in cui creare il lake.

    Per i lake creati in una determinata regione (ad esempio us-central1), puoi collegare i dati sia a singola regione (us-central1) che multiregionali (us multi-region) a seconda delle impostazioni della zona.

  7. (Facoltativo) Aggiungi etichette al lake.

  8. (Facoltativo) Nella sezione Metastore , fai clic sul menu Servizio Metastore e seleziona il servizio che hai creato nella sezione Prima di iniziare.

  9. Fai clic su Crea.

gcloud

Per creare un lake, utilizza il comando gcloud dataplex lakes create:

gcloud dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Sostituisci quanto segue:

  • LAKE: nome del nuovo lake
  • LOCATION: si riferisce a una Google Cloud regione
  • k1=v1,k2=v2,k3=v3: etichette utilizzate (se presenti)
  • METASTORE_SERVICE: il servizio Dataproc Metastore, se creato

REST

Per creare un lake, utilizza il lakes.create lakes.create.

Passaggi successivi