Membuat data lake Knowledge Catalog

Dokumen ini menjelaskan cara membuat data lake Knowledge Catalog (sebelumnya Dataplex Universal Catalog). Anda dapat membuat data lake di salah satu region yang mendukung Knowledge Catalog.

Sebelum memulai

  1. Login ke akun Anda. Google Cloud Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Kontrol akses

  1. Untuk membuat dan mengelola data lake, pastikan Anda memiliki peran standar roles/dataplex.admin atau roles/dataplex.editor. Untuk mengetahui informasi selengkapnya, lihat memberikan satu peran.

  2. Untuk melampirkan bucket Cloud Storage dari project lain ke data lake, berikan peran administrator ke akun layanan Knowledge Catalog berikut di bucket dengan menjalankan perintah berikut:

    gcloud dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Membuat metastore

Anda dapat mengakses metadata Knowledge Catalog menggunakan Hive Metastore dalam kueri Spark dengan mengaitkan instance layanan Dataproc Metastore dengan data lake Knowledge Catalog. Anda harus memiliki Dataproc Metastore yang mendukung gRPC (versi 3.1.2 atau yang lebih tinggi) yang terkait dengan data lake Knowledge Catalog.

  1. Buat layanan Dataproc Metastore.

  2. Konfigurasi instance layanan Dataproc Metastore untuk mengekspos endpoint gRPC (bukan endpoint Thrift Metastore default):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Lihat endpoint gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Membuat data lake

Konsol

  1. Di Google Cloud konsol, buka halaman Knowledge Catalog Lakes.

    Buka Lakes

  2. Klik Create.

  3. Masukkan Display name.

  4. ID data lake akan otomatis dibuat untuk Anda. Jika mau, Anda dapat memberikan ID Anda sendiri. Lihat Konvensi penamaan resource.

  5. Opsional: Masukkan Description.

  6. Tentukan Region tempat data lake akan dibuat.

    Untuk data lake yang dibuat di region tertentu (misalnya, us-central1), Anda dapat melampirkan data satu region (us-central1) dan data multi-region (us multi-region) bergantung pada setelan zona.

  7. Opsional: Tambahkan label ke data lake Anda.

  8. Opsional: Di bagian Metastore, klik menu Metastore service, lalu pilih layanan yang Anda buat di bagian Sebelum memulai.

  9. Klik Create.

gcloud

Untuk membuat data lake, gunakan perintah gcloud dataplex lakes create:

gcloud dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Ganti kode berikut:

  • LAKE: nama data lake baru
  • LOCATION: mengacu pada a Google Cloud region
  • k1=v1,k2=v2,k3=v3: label yang digunakan (jika ada)
  • METASTORE_SERVICE: layanan Dataproc Metastore, jika dibuat

REST

Untuk membuat data lake, gunakan metode lakes.create.

Langkah berikutnya