Membuat image kustom Dataproc

Anda dapat membuat cluster Dataproc dengan image kustom yang berisi paket yang sudah diinstal sebelumnya. Halaman ini menunjukkan cara membuat image kustom dan menginstalnya di cluster Dataproc.

Pertimbangan dan batasan penggunaan

  • Masa aktif image kustom: Untuk memastikan bahwa cluster menerima update layanan dan perbaikan bug terbaru, pembuatan cluster dengan image kustom dibatasi hingga 365 hari sejak tanggal pembuatan image kustom. Perhatikan bahwa cluster yang ada yang dibuat dengan image kustom dapat berjalan tanpa batas waktu.

    Anda mungkin perlu menggunakan otomatisasi jika ingin membuat cluster dengan image kustom tertentu selama lebih dari 365 hari. Untuk mengetahui informasi selengkapnya, lihat Membuat cluster dengan image kustom yang sudah tidak berlaku.

  • Khusus Linux: Petunjuk dalam dokumen ini hanya berlaku untuk sistem operasi Linux. Sistem operasi lain mungkin didukung dalam rilis Dataproc mendatang.

  • Image dasar yang didukung: Build image kustom harus dimulai dari image dasar Dataproc. Image dasar berikut didukung: Debian, Rocky Linux, dan Ubuntu.

    • Ketersediaan image dasar: Image baru yang diumumkan dalam catatan rilis Dataproc tidak tersedia untuk digunakan sebagai dasar image kustom hingga satu minggu sejak tanggal pengumumannya.
  • Menggunakan komponen opsional:

    Terlepas dari image dasar yang digunakan untuk image kustom Anda, saat Anda membuat cluster, Anda harus mencantumkan atau memilih komponen opsional.

    Contoh: Perintah pembuatan cluster Google Cloud CLI:

    gcloud dataproc clusters create CLUSTER_NAME
        --image=CUSTOM_IMAGE_URI  \
        --optional-components=COMPONENT_NAME \
        ... other flags
    

    Jika nama komponen tidak ditentukan saat Anda membuat cluster, komponen opsional, termasuk paket dan konfigurasi OS kustom, akan dihapus.

  • Menggunakan image kustom yang dihosting: Jika Anda menggunakan image kustom yang dihosting di project lain, akun layanan Dataproc Service Agent di project Anda harus memiliki izin compute.images.get pada image di project host. Anda dapat memberikan izin ini dengan memberikan peran roles/compute.imageUser pada image yang dihosting ke akun layanan Agen Layanan Dataproc project Anda (lihat Membagikan image kustom dalam organisasi).

  • Menggunakan rahasia MOK (Machine Owner Key) secure boot: Untuk mengaktifkan secure boot dengan image kustom Dataproc Anda, lakukan hal berikut:

    1. Aktifkan Secret Manager API (secretmanager.googleapis.com. Dataproc membuat dan mengelola pasangan kunci menggunakan layanan Secret Manager.

    2. Tambahkan flag --service-account="SERVICE_ACCOUNT" ke perintah generate_custom_image.py saat Anda membuat image kustom. Catatan: Anda harus memberikan peran Secret Manager Viewer (roles/secretmanager.viewer) kepada akun layanan di project dan peran Secret Manager Accessor (roles/secretmanager.secretAccessor) pada secret publik dan pribadi.

      Untuk mengetahui informasi selengkapnya dengan contoh, lihat file README.md dan file lainnya dalam direktori examples/secure-boot dari repositori GoogleCloudDataproc/custom-images di GitHub.

      Untuk menonaktifkan booting aman: Secara default, skrip image kustom Dataproc membuat dan mengelola pasangan kunci menggunakan Secret Manager saat dijalankan dari cluster Dataproc. Jika Anda tidak ingin menggunakan secure-boot dengan image kustom, sertakan --trusted-cert="" (nilai flag kosong) ke perintah generate_custom_image.py saat Anda membuat image kustom.

Sebelum memulai

Pastikan untuk menyiapkan project Anda sebelum membuat gambar kustom.

Menyiapkan project

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API, Compute Engine API, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. Instal Google Cloud CLI.

  6. Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

  7. Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:

    gcloud init
  8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  9. Verify that billing is enabled for your Google Cloud project.

  10. Enable the Dataproc API, Compute Engine API, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  11. Instal Google Cloud CLI.

  12. Jika Anda menggunakan penyedia identitas (IdP) eksternal, Anda harus login ke gcloud CLI dengan identitas gabungan Anda terlebih dahulu.

  13. Untuk melakukan inisialisasi gcloud CLI, jalankan perintah berikut:

    gcloud init
  14. Instal Python 3.11+
  15. Siapkan skrip penyesuaian yang menginstal paket kustom dan/atau mengupdate konfigurasi, misalnya:
      #! /usr/bin/bash
      apt-get -y update
      apt-get install python-dev
      apt-get install python-pip
      pip install numpy
      

Membuat bucket Cloud Storage di project Anda

  1. Di konsol Google Cloud , buka halaman Buckets Cloud Storage.

    Buka Buckets

  2. Klik Create.
  3. Di halaman Buat bucket, masukkan informasi bucket Anda. Untuk melanjutkan ke langkah berikutnya, klik Lanjutkan.
    1. Di bagian Mulai, lakukan tindakan berikut:
      • Masukkan nama yang unik secara global yang memenuhi persyaratan penamaan bucket.
      • Untuk menambahkan label bucket, luaskan bagian Label (), klik Tambahkan label, lalu tentukan key dan value untuk label Anda.
    2. Di bagian Pilih tempat untuk menyimpan data Anda, lakukan tindakan berikut:
      1. Pilih Jenis lokasi.
      2. Pilih lokasi tempat data bucket Anda disimpan secara permanen dari menu drop-down Location type.
        • Jika memilih jenis lokasi dual-region, Anda juga dapat memilih untuk mengaktifkan replikasi turbo dengan menggunakan kotak centang yang relevan.
      3. Untuk menyiapkan replikasi lintas bucket, pilih Add cross-bucket replication via Storage Transfer Service dan ikuti langkah-langkah berikut:

        Menyiapkan replikasi lintas bucket

        1. Di menu Bucket, pilih bucket.
        2. Di bagian Setelan replikasi, klik Konfigurasi untuk mengonfigurasi setelan bagi tugas replikasi.

          Panel Konfigurasi replikasi lintas bucket akan muncul.

          • Untuk memfilter objek yang akan direplikasi menurut awalan nama objek, masukkan awalan yang ingin Anda sertakan atau kecualikan objeknya, lalu klik Tambahkan awalan.
          • Untuk menetapkan kelas penyimpanan bagi objek yang direplikasi, pilih kelas penyimpanan dari menu Kelas penyimpanan. Jika Anda melewati langkah ini, objek yang direplikasi akan menggunakan kelas penyimpanan bucket tujuan secara default.
          • Klik Done.
    3. Di bagian Choose how to store your data, lakukan tindakan berikut:
      1. Pilih kelas penyimpanan default untuk bucket atau Autoclass untuk pengelolaan kelas penyimpanan otomatis untuk data bucket Anda.
      2. Untuk mengaktifkan namespace hierarkis, di bagian Optimalkan penyimpanan untuk beban kerja intensif data, pilih Aktifkan namespace hierarkis di bucket ini.
    4. Di bagian Pilih cara mengontrol akses ke objek, pilih apakah bucket Anda menerapkan pencegahan akses publik atau tidak, lalu pilih metode kontrol akses untuk objek bucket Anda.
    5. Di bagian Pilih cara melindungi data objek, lakukan tindakan berikut:
      • Pilih salah satu opsi di bagian Perlindungan data yang ingin Anda tetapkan untuk bucket Anda.
        • Untuk mengaktifkan penghapusan sementara, klik kotak centang Kebijakan penghapusan sementara (Untuk pemulihan data), dan tentukan jumlah hari Anda ingin mempertahankan objek setelah penghapusan.
        • Untuk menyetel Pembuatan Versi Objek, klik kotak centang Pembuatan versi objek (Untuk kontrol versi), dan tentukan jumlah maksimum versi per objek dan jumlah hari setelah versi lama berakhir.
        • Untuk mengaktifkan kebijakan retensi pada objek dan bucket, klik kotak centang Retensi (Untuk kepatuhan), lalu lakukan hal berikut:
          • Untuk mengaktifkan Penguncian Retensi Objek, centang kotak Aktifkan retensi objek.
          • Untuk mengaktifkan Bucket Lock, centang kotak Setel kebijakan retensi bucket, lalu pilih satuan waktu dan durasi untuk periode retensi data Anda.
      • Untuk memilih cara mengenkripsi data objek Anda, luaskan bagian Enkripsi data (), lalu pilih metode Enkripsi data.
  4. Klik Create.

Membuat gambar kustom

Anda menggunakan generate_custom_image.py, program Python, untuk membuat image kustom Dataproc.

Cara kerjanya

Program generate_custom_image.py meluncurkan instance VM Compute Engine sementara dengan image dasar Dataproc yang ditentukan, lalu menjalankan skrip penyesuaian di dalam instance VM untuk menginstal paket kustom dan/atau memperbarui konfigurasi. Setelah skrip penyesuaian selesai, skrip akan mematikan instance VM dan membuat image kustom Dataproc dari disk instance VM. VM sementara akan dihapus setelah image kustom dibuat. Image kustom disimpan dan dapat digunakan untuk membuat cluster Dataproc.

Program generate_custom_image.py menggunakan gcloud CLI untuk menjalankan alur kerja multi-langkah di Compute Engine.

Menjalankan kode

Buat fork atau clone file di GitHub di Dataproc custom images.

Kemudian, jalankan skrip generate_custom_image.py agar Dataproc membuat dan menyimpan image kustom Anda.

python3 generate_custom_image.py \
    --image-name=CUSTOM_IMAGE_NAME \
    [--family=CUSTOM_IMAGE_FAMILY_NAME] \
    --dataproc-version=IMAGE_VERSION \
    --customization-script=LOCAL_PATH \
    --zone=ZONE \
    --gcs-bucket=gs://BUCKET_NAME \
    [--no-smoke-test]

Flag yang diperlukan

  • --image-name: nama output untuk image kustom Anda.

  • --dataproc-version: versi image Dataproc yang akan digunakan dalam image kustom Anda. Tentukan versi dalam format x.y.z-os atau x.y.z-rc-os, misalnya, "2.0.69-debian10".

  • --customization-script: jalur lokal ke skrip yang akan dijalankan alat untuk menginstal paket kustom atau melakukan penyesuaian lainnya. Skrip ini dijalankan sebagai skrip startup Linux hanya di VM sementara yang digunakan untuk membuat image kustom. Anda dapat menentukan skrip inisialisasi yang berbeda untuk tindakan inisialisasi lain yang ingin Anda lakukan saat membuat cluster dengan image kustom.

    Image lintas project: Jika image kustom Anda digunakan untuk membuat cluster di project yang berbeda, error dapat terjadi karena cache perintah gcloud atau gsutil yang disimpan dalam image. Anda dapat menghindari masalah ini dengan menyertakan perintah berikut dalam skrip penyesuaian untuk menghapus kredensial yang di-cache.

    rm -r /root/.gsutil /root/.config/gcloud
    
  • --zone: zona Compute Engine tempat generate_custom_image.py akan membuat VM sementara untuk digunakan dalam membuat image kustom Anda.

  • --gcs-bucket: URI, dalam format gs://BUCKET_NAME, yang mengarah ke bucket Cloud Storage Anda. generate_custom_image.py menulis file log ke bucket ini.

Flag opsional

  • --family: kelompok image untuk image kustom. Kelompok image digunakan untuk mengelompokkan image serupa, dan dapat digunakan saat membuat cluster sebagai penunjuk ke image terbaru dalam kelompok. Contoh, custom-2-2-debian12.
  • --no-smoke-test: Ini adalah flag opsional yang menonaktifkan pengujian ringan pada image kustom yang baru dibuat. Pengujian ringan membuat cluster pengujian Dataproc dengan image yang baru di-build, menjalankan tugas kecil, lalu menghapus cluster di akhir pengujian. Pengujian ringan dijalankan secara default untuk memverifikasi bahwa image kustom yang baru dibuat dapat membuat cluster Dataproc yang berfungsi. Menonaktifkan langkah ini menggunakan flag --no-smoke-test akan mempercepat proses pembuatan image kustom, tetapi penggunaannya tidak direkomendasikan.
  • --subnet: Subnetwork yang akan digunakan untuk membuat VM yang membangun image Dataproc kustom. Jika project Anda adalah bagian dari VPC bersama, Anda harus menentukan URL subnetwork lengkap dalam format berikut: projects/HOST_PROJECT_ID/regions/REGION/subnetworks/SUBNET.
  • --optional-components: Flag ini hanya tersedia saat menggunakan versi gambar dasar 2.3 dan yang lebih baru. Daftar komponen opsional, seperti SOLR, RANGER, TRINO, DOCKER, FLINK, HIVE_WEBHCAT, ZEPPELIN, HUDI, ICEBERG, dan PIG (PIG tersedia sebagai komponen opsional dalam versi image 2.3 dan yang lebih baru), untuk diinstal dalam image.

    Contoh: Perintah pembuatan cluster Google Cloud CLI:

    gcloud dataproc clusters create CLUSTER_NAME
        --image=CUSTOM_IMAGE_URI  \
        --optional-components=COMPONENT_NAME \
        ... other flags
    

Untuk mengetahui daftar flag opsional yang tersedia, lihat Argumen Opsional di GitHub.

Jika generate_custom_image.py berhasil, imageURI gambar kustom akan ditampilkan dalam output jendela terminal (imageUri lengkap ditampilkan dalam cetak tebal di bawah):

...
managedCluster:
    clusterName: verify-image-20180614213641-8308a4cd
    config:
      gceClusterConfig:
        zoneUri: ZONE
      masterConfig:
        imageUri: https://www.googleapis.com/compute/beta/projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME
...

INFO:__main__:Successfully built Dataproc custom image: CUSTOM_IMAGE_NAME
INFO:__main__:

#####################################################################
  WARNING: DATAPROC CUSTOM IMAGE 'CUSTOM_IMAGE_NAME'
           WILL EXPIRE ON 2018-07-14 21:35:44.133000.
#####################################################################

Label versi gambar kustom (penggunaan lanjutan)

Saat menggunakan alat image kustom standar Dataproc, alat tersebut menetapkan label goog-dataproc-version pada image kustom yang dibuat. Label mencerminkan kemampuan fitur dan protokol yang digunakan oleh Dataproc untuk mengelola software pada image.

Penggunaan lanjutan: Jika Anda menggunakan proses sendiri untuk membuat image Dataproc kustom, Anda harus menambahkan label goog-dataproc-version secara manual ke image kustom Anda, sebagai berikut:

  1. Ekstrak label goog-dataproc-version dari image Dataproc dasar yang digunakan untuk membuat image kustom.

    gcloud compute images describe ${BASE_DATAPROC_IMAGE} \
        --project cloud-dataproc \
        --format="value(labels.goog-dataproc-version)"
    

  2. Tetapkan label pada gambar kustom.

    gcloud compute images add-labels IMAGE_NAME --labels=[KEY=VALUE,...]
    

Menggunakan gambar kustom

Anda menentukan image kustom saat membuat cluster Dataproc. Image kustom disimpan di Cloud Compute Images, dan valid untuk membuat cluster Dataproc selama 365 hari sejak tanggal pembuatannya (lihat Membuat cluster dengan image kustom yang sudah habis masa berlakunya untuk menggunakan image kustom setelah tanggal habis masa berlakunya 365 hari).

URI gambar kustom

Anda meneruskan imageUri image kustom ke operasi pembuatan cluster. URI ini dapat ditentukan dengan salah satu dari tiga cara berikut:

  1. URI lengkap:
    https://www.googleapis.com/compute/beta/projects/PROJECT_ID/global/images/`gs://`BUCKET_NAME`
  2. URI Parsial: projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME
  3. Nama pendek: CUSTOM_IMAGE_NAME

Image kustom juga dapat ditentukan oleh URI kelompoknya, yang selalu memilih image terbaru dalam kelompok image.

  1. URI lengkap:
    https://www.googleapis.com/compute/beta/projects/PROJECT_ID/global/images/family/CUSTOM_IMAGE_FAMILY_NAME/var>
  2. URI Parsial: projects/PROJECT_ID/global/images/family/CUSTOM_IMAGE_FAMILY_NAME

Menemukan URI gambar kustom

Google Cloud CLI

Jalankan perintah berikut untuk mencantumkan nama image kustom Anda.

gcloud compute images list

Teruskan nama image kustom Anda ke perintah berikut untuk mencantumkan URI (selfLink) image kustom Anda.

gcloud compute images describe custom-image-name

Cuplikan output:

...
name: CUSTOM_IMAGE_NAME
selfLink: https://www.googleapis.com/compute/v1/projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME
...

Konsol

  1. Buka halaman Compute Engine→Images di konsol Google Cloud , lalu klik nama image. Anda dapat menyisipkan kueri di kolom filter images untuk membatasi jumlah gambar yang ditampilkan.
  2. Halaman Image details akan terbuka. Klik REST yang Setara.
  3. Respons REST mencantumkan informasi tambahan tentang gambar, termasuk selfLink, yang merupakan URI gambar.
    {
      ...
      "name": "my-custom-image",
      "selfLink": "projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME",
      "sourceDisk": ...,
      ...
    }
    

Membuat cluster dengan image kustom

membuat cluster dengan menggunakan gcloud CLI, Dataproc API, atau Google Cloud konsol.

gcloud CLI

Buat cluster Dataproc dengan image kustom menggunakan perintah dataproc clusters create dengan flag --image.

Contoh:
gcloud dataproc clusters create CLUSTER-NAME \
    --image=CUSTOM_IMAGE_URI \
    --region=REGION \
    ... other flags

REST API

Buat cluster dengan image kustom dengan menentukan URI image kustom di kolom InstanceGroupConfig.imageUri dalam objek masterConfig, workerConfig, dan, jika berlaku, secondaryWorkerConfig yang disertakan dalam permintaan API cluster.create.

Contoh: Permintaan REST untuk membuat cluster Dataproc standar (satu master, dua node pekerja) dengan image kustom.

POST /v1/projects/PROJECT_ID/regions/REGION/clusters/
{
  "clusterName": "CLUSTER_NAME",
  "config": {
    "masterConfig": {
      "imageUri": "projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME"
    },
    "workerConfig": {
      "imageUri": "projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME"
    }
  }
}
  

Konsol

  1. Buka halaman Create a cluster Dataproc. Panel Set up cluster dipilih.
  2. Di bagian Versioning, klik Ubah. Pilih tab Custom Image, pilih image kustom yang akan digunakan untuk cluster Dataproc Anda, lalu klik Select. VM cluster akan disediakan dengan image kustom yang dipilih.

Mengganti properti cluster Dataproc dengan image kustom

Anda dapat menggunakan image kustom untuk mengganti properti cluster yang ditetapkan selama pembuatan cluster. Jika Anda membuat cluster dengan image kustom, dan operasi pembuatan cluster menetapkan properti dengan nilai yang berbeda dari yang ditetapkan oleh image kustom Anda, nilai properti yang ditetapkan oleh image kustom Anda akan diutamakan.

Untuk menyetel properti cluster dengan image kustom Anda:

  1. Dalam skrip penyesuaian gambar kustom Anda, buat file dataproc.custom.properties di /etc/google-dataproc, lalu tetapkan nilai properti cluster dalam file.

    • Contoh file dataproc.custom.properties:
    dataproc.conscrypt.provider.enable=VALUE
    dataproc.logging.stackdriver.enable=VALUE
    
    • Contoh cuplikan pembuatan file skrip penyesuaian untuk mengganti dua properti cluster:
    cat <<EOF >/etc/google-dataproc/dataproc.custom.properties
    dataproc.conscrypt.provider.enable=true
    dataproc.logging.stackdriver.enable=false
    EOF
    

Membuat cluster dengan image kustom yang sudah tidak berlaku

Secara default, masa berlaku image kustom adalah 365 hari sejak tanggal pembuatan image. Anda dapat membuat cluster yang menggunakan image kustom yang sudah tidak berlaku dengan menyelesaikan langkah-langkah berikut.

  1. Mencoba membuat cluster Dataproc dengan image kustom yang sudah tidak berlaku atau image kustom yang akan berakhir dalam waktu 10 hari.

    gcloud dataproc clusters create CLUSTER-NAME \
        --image=CUSTOM-IMAGE-NAME \
        --region=REGION \
        ... other flags
    
  2. gcloud CLI akan mengeluarkan pesan error yang mencakup nama properti dataproc:dataproc.custom.image.expiration.token cluster dan nilai token.

dataproc:dataproc.custom.image.expiration.token=TOKEN_VALUE

Salin string TOKEN_VALUE ke papan klip.

  1. Gunakan gcloud CLI untuk membuat cluster Dataproc lagi, dengan menambahkan TOKEN_VALUE yang disalin sebagai properti cluster.

    gcloud dataproc clusters create CLUSTER-NAME \
        --image=CUSTOM-IMAGE-NAME \
        --properties=dataproc:dataproc.custom.image.expiration.token=TOKEN_VALUE \
        --region=REGION \
        ... other flags
    

Pembuatan cluster dengan image kustom akan berhasil.