Panduan memulai: Membuat dan mengonfigurasi data lake

Panduan memulai ini menunjukkan cara mulai menggunakan Knowledge Catalog (sebelumnya Dataplex Universal Catalog) di konsol Google Cloud dengan memandu Anda membuat data lake, menambahkan zona, dan melampirkan aset.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. Click Grant access.
    4. In the New principals field, enter your user identifier. This is typically the email address for a Google Account.

    5. Click Select a role, then search for the role.
    6. To grant additional roles, click Add another role and add each additional role.
    7. Click Save.
  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that billing is enabled for your Google Cloud project.

  8. Enable the Dataplex, Managed Service for Apache Spark, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  9. Make sure that you have the following role or roles on the project: roles/dataplex.admin, roles/dataplex.editor

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. Click Grant access.
    4. In the New principals field, enter your user identifier. This is typically the email address for a Google Account.

    5. Click Select a role, then search for the role.
    6. To grant additional roles, click Add another role and add each additional role.
    7. Click Save.
  10. Buat bucket Cloud Storage:
    1. Di konsol Google Cloud , buka halaman Buckets Cloud Storage.

      Buka Buckets

    2. Klik Create.
    3. Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
      1. Untuk Beri nama bucket Anda, masukkan nama bucket yang unik. Jangan sertakan informasi sensitif pada nama bucket, karena namespace bucket bersifat global dan dapat dilihat publik.
      2. Di bagian Pilih tempat untuk menyimpan data Anda, lakukan tindakan berikut:
        1. Pilih Jenis lokasi.
        2. Pilih lokasi tempat data bucket Anda disimpan secara permanen dari menu drop-down Location type.
          • Jika memilih jenis lokasi dual-region, Anda juga dapat memilih untuk mengaktifkan replikasi turbo dengan menggunakan kotak centang yang relevan.
        3. Untuk menyiapkan replikasi lintas bucket, pilih Add cross-bucket replication via Storage Transfer Service dan ikuti langkah-langkah berikut:

          Menyiapkan replikasi lintas bucket

          1. Di menu Bucket, pilih bucket.
          2. Di bagian Setelan replikasi, klik Konfigurasi untuk mengonfigurasi setelan bagi tugas replikasi.

            Panel Konfigurasi replikasi lintas bucket akan muncul.

            • Untuk memfilter objek yang akan direplikasi menurut awalan nama objek, masukkan awalan yang ingin Anda sertakan atau kecualikan objeknya, lalu klik Tambahkan awalan.
            • Untuk menetapkan kelas penyimpanan bagi objek yang direplikasi, pilih kelas penyimpanan dari menu Kelas penyimpanan. Jika Anda melewati langkah ini, objek yang direplikasi akan menggunakan kelas penyimpanan bucket tujuan secara default.
            • Klik Done.
      3. Di bagian Choose how to store your data, lakukan tindakan berikut:
        1. Di bagian Setel kelas default, pilih opsi berikut: Standard.
        2. Untuk mengaktifkan namespace hierarkis, di bagian Optimalkan penyimpanan untuk beban kerja intensif data, pilih Aktifkan namespace hierarkis di bucket ini.
      4. Di bagian Pilih cara mengontrol akses ke objek, pilih apakah bucket Anda menerapkan pencegahan akses publik atau tidak, lalu pilih metode kontrol akses untuk objek bucket Anda.
      5. Di bagian Pilih cara melindungi data objek, lakukan tindakan berikut:
        • Pilih salah satu opsi di bagian Perlindungan data yang ingin Anda tetapkan untuk bucket Anda.
          • Untuk mengaktifkan penghapusan sementara, klik kotak centang Kebijakan penghapusan sementara (Untuk pemulihan data), dan tentukan jumlah hari Anda ingin mempertahankan objek setelah penghapusan.
          • Untuk menyetel Pembuatan Versi Objek, klik kotak centang Pembuatan versi objek (Untuk kontrol versi), dan tentukan jumlah maksimum versi per objek dan jumlah hari setelah versi lama berakhir.
          • Untuk mengaktifkan kebijakan retensi pada objek dan bucket, klik kotak centang Retensi (Untuk kepatuhan), lalu lakukan hal berikut:
            • Untuk mengaktifkan Penguncian Retensi Objek, centang kotak Aktifkan retensi objek.
            • Untuk mengaktifkan Bucket Lock, centang kotak Setel kebijakan retensi bucket, lalu pilih satuan waktu dan durasi untuk periode retensi data Anda.
        • Untuk memilih cara mengenkripsi data objek Anda, luaskan bagian Enkripsi data (), lalu pilih metode Enkripsi data.
    4. Klik Create.

Membuat data lake

Lake adalah konstruksi logis yang merepresentasikan domain data atau unit bisnis. Misalnya, jika Anda perlu mengatur data berdasarkan penggunaan grup, Anda akan membuat data lake untuk setiap departemen (misalnya, retail, penjualan, dan keuangan).

Langkah-langkah berikut menunjukkan cara membuat lake menggunakan konsol Google Cloud .

  1. Di konsol Google Cloud , buka halaman Lakes Knowledge Catalog.

    Buka Lakes

  2. Klik Create.

  3. Masukkan Nama tampilan.

  4. ID lake dibuat secara otomatis untuk Anda.

  5. Tentukan Region tempat pembuatan lake.

    Untuk lake yang dibuat di region tertentu (misalnya, us-central1), data single-region (us-central1) dan data multi-region (us multi-region) dapat dilampirkan, bergantung pada setelan zona.

  6. Klik Create.

Menambahkan zona ke data lake

Setelah membuat data lake, Anda dapat menambahkan zona ke data lake. Zona adalah pengelompokan logis dalam data lake, yang berguna untuk mengategorikan data terstruktur dan tidak terstruktur.

  1. Di tampilan Manage, klik nama lake yang ingin Anda tambahi zona.

  2. Klik Add zone.

  3. Masukkan Nama tampilan untuk zona Anda.

  4. Klik drop-down Jenis. Pilih Zona Mentah atau Zona Terkurasi. Pelajari lebih lanjut jenis zona.

  5. Di bagian Lokasi data, pilih Regional atau Multi-regional. Pilihan Anda tidak dapat diubah nanti. Data satu region dan multi-region tidak dapat digabungkan dalam zona yang sama.

  6. Klik Create.

Mungkin diperlukan waktu beberapa menit untuk membuat zona.

Menghubungkan aset

Data dapat disimpan di bucket Cloud Storage atau set data BigQuery, dan dapat dilampirkan sebagai aset ke zona data dalam data lake Knowledge Catalog.

Untuk melampirkan bucket Cloud Storage sebagai aset, ikuti langkah-langkah berikut:

  1. Di tampilan Manage, klik nama data lake yang ingin Anda hubungkan dengan bucket Cloud Storage.

  2. Di tab Zones, klik zona untuk menambahkan aset.

  3. Di tab Aset, klik Tambahkan Aset.

  4. Klik Add an asset.

  5. Di bagian Type, pilih Storage bucket.

  6. Di bagian Nama tampilan, masukkan nama untuk aset.

  7. Di kolom Bucket, klik Browse. Jika Anda memiliki bucket Cloud Storage, temukan bucket tersebut, lalu klik Select. Jika Anda tidak memiliki bucket Cloud Storage, Anda dapat membuatnya dengan mengklik tombol .

    1. Masukkan nama unik untuk bucket. Klik Lanjutkan.

    2. Pilih Jenis lokasi. Klik Continue.

    3. Pilih kelas penyimpanan default untuk data Anda. Klik Lanjutkan.

    4. Pilih tingkat kontrol akses. Klik Lanjutkan.

    5. Pilih opsi perlindungan data atau Tidak ada. Klik Continue.

    6. Klik Create.

    7. Klik Select

  8. Klik Done.

  9. Klik Lanjutkan.

  10. Di bagian Discovery settings, pilih Inherit untuk mewarisi Discovery settings dari level zona.

  11. Klik Lanjutkan.

  12. Di bagian Tambahkan aset, klik Kirim.

Tunggu hingga Pembuatan aset selesai.

Untuk menggunakan danau Anda, lihat bagian Langkah berikutnya. Jika tidak, hapus resource yang Anda buat dengan mengikuti langkah-langkah pembersihan.

Pembersihan

Agar akun Google Cloud Anda tidak dikenai biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

  1. Di Konsol Google Cloud , buka halaman Manage resources.

    Buka Kelola resource

  2. Jika project yang ingin Anda hapus tertaut ke organisasi, buka daftar Organization di kolom Name.
  3. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  4. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Atau, Anda dapat menghapus resource yang digunakan dalam tutorial ini. Lake tidak akan dihapus hingga Anda menghapus semua resource zona datanya. Demikian pula, zona data tidak akan dihapus kecuali Anda menghapus semua resource asetnya.

Lepaskan bucket penyimpanan

Untuk melepaskan aset Knowledge Catalog yang Anda buat, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Lakes Knowledge Catalog.

    Buka Lakes

  2. Klik nama lake yang Anda buat.

  3. Di tab Zones, klik nama zona yang Anda buat.

  4. Di tab Aset, pilih aset yang akan dilepas dengan mencentang kotak di sebelah kiri nama bucket.

  5. Klik Hapus Aset.

  6. Klik Hapus untuk mengonfirmasi pelepasan.

Menghapus zona

Untuk menghapus zona Knowledge Catalog yang Anda buat, ikuti langkah-langkah berikut:

  1. Di konsol Google Cloud , buka halaman Lakes Knowledge Catalog.

    Buka Lakes

  2. Klik lake yang Anda buat.

  3. Di tab Zones, pilih zona yang akan dihapus dengan mencentang kotak di sebelah kiri nama zona data.

  4. Klik Hapus Zona.

  5. Klik Delete untuk mengonfirmasi penghapusan.

Menghapus data lake

Langkah-langkah berikut menunjukkan cara menghapus danau Knowledge Catalog yang Anda buat.

  1. Di konsol Google Cloud , buka halaman Lakes Knowledge Catalog.

    Buka Lakes

  2. Klik lake yang Anda buat.

  3. Di bagian atas halaman, klik Delete.

  4. Konfirmasi penghapusan dengan mengetik "delete" di kolom.

  5. Klik Hapus Danau untuk mengonfirmasi penghapusan.

Langkah berikutnya