Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Tentang opsi penggunaan akselerator untuk workload AI/ML di GKE

Autopilot Standard

Halaman ini menjelaskan teknik yang tersedia yang dapat Anda gunakan untuk mendapatkan akselerator komputasi, seperti GPU atau TPU, berdasarkan persyaratan workload AI/ML Anda. Teknik ini disebut opsi penggunaan akselerator di GKE. Memahami berbagai opsi penggunaan membantu Anda mengoptimalkan penggunaan resource untuk menghindari penggunaan resource yang kurang optimal, meningkatkan kemungkinan mendapatkan resource, dan menyeimbangkan biaya dan performa.

Halaman ini ditujukan untuk admin dan operator Platform yang berkoordinasi dengan engineer Machine Learning (ML) untuk mendapatkan resource yang diperlukan agar berhasil men-deploy workload AI/ML.

Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.

Memahami opsi penggunaan

Anda dapat memilih dari opsi berikut untuk menggunakan akselerator di GKE:

Sesuai permintaan: Anda menggunakan TPU atau GPU di GKE tanpa mengatur kapasitas terlebih dahulu. Sebelum meminta resource, Anda harus memiliki kuota sesuai permintaan yang cukup untuk jenis dan jumlah akselerator tertentu. Sesuai permintaan adalah opsi penggunaan yang paling fleksibel; namun, tidak ada jaminan bahwa resource sesuai permintaan yang cukup akan tersedia untuk memenuhi permintaan Anda.
Pemesanan: Anda memesan resource untuk jangka waktu tertentu. Pemesanan dapat berupa salah satu hal berikut:
- Pemesanan untuk masa mendatang: Anda memesan resource untuk durasi yang biasanya lebih lama untuk waktu tertentu di masa mendatang. Anda memiliki akses eksklusif ke resource yang dipesan selama jangka waktu tersebut. Pemesanan untuk masa mendatang memerlukan interaksi dengan Manajer Akun Teknis (TAM). Untuk mengetahui informasi selengkapnya, lihat TPU dan GPU.
- Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender): Anda meminta kapasitas untuk jangka waktu tertentu, dengan penasihat kalender yang menyarankan tanggal yang tersedia. Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender) menawarkan lebih banyak fleksibilitas untuk durasi yang lebih singkat dan penelusuran kapasitas layanan mandiri. Untuk mengetahui informasi selengkapnya, lihat Permintaan pemesanan untuk masa mendatang dalam mode kalender.
- Pemesanan sesuai permintaan: Anda dapat meminta pemesanan sesuai permintaan untuk disediakan segera setelah kapasitas tersedia, mirip dengan opsi sesuai permintaan. Saat pemesanan aktif, Anda membayar resource, baik Anda menggunakannya atau tidak.
Flex-start: Anda mengamankan resource yang dialokasikan secara padat untuk workload berdurasi singkat tanpa pemesanan. Anda meminta jumlah GPU atau TPU tertentu, dan Compute Engine akan menyediakannya saat kapasitas tersedia. GPU atau TPU berjalan tanpa gangguan hingga tujuh hari. Untuk mengetahui informasi selengkapnya, lihat penyediaan flex-start.
Spot: Anda menyediakan Spot VM, yang memungkinkan Anda mendapatkan diskon signifikan, tetapi Spot VM dapat dihentikan kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Spot VM.

Memahami kuota akselerator di GKE

Kuota dan batas sistem membatasi penggunaan Google Cloud resource Anda untuk mendukung ketersediaan resource bagi semua Google Cloud pengguna. Kuota memiliki nilai default, tetapi biasanya Anda dapat meminta penyesuaian. Batas sistem adalah nilai tetap yang tidak dapat diubah. Secara default, project umumnya tidak dilengkapi dengan kuota akselerator yang signifikan. Anda harus meminta dan menerima persetujuan untuk kuota untuk jenis dan region akselerator tertentu.

Pertimbangkan karakteristik berikut saat mengelola kuota yang dibutuhkan workload Anda:

Anda harus meminta kuota yang diperlukan untuk setiap opsi penggunaan. Untuk mengidentifikasi kuota yang diperlukan untuk setiap opsi penggunaan, lihat parameter "Kuota" yang sesuai yang tercantum dalam tabel memilih opsi penggunaan. Jika kuota tidak mencukupi, upaya untuk membuat cluster, node pool, atau men-deploy workload yang memerlukan akselerator akan gagal dengan error Quota exceeded.
Anda harus meminta kuota saat menggunakan class komputasi kustom di Autopilot. Node yang disediakan untuk memenuhi persyaratan class komputasi masih menggunakan kuota project Anda untuk akselerator yang ditentukan.
Google Cloud Akun Uji Coba Gratis memiliki batasan untuk meminta penambahan kuota untuk resource bernilai tinggi seperti GPU dan TPU. Untuk memiliki akses ke kuota akselerator, upgrade ke akun berbayar.

Untuk memeriksa dan meminta kuota, buka halaman Kuota di Google Cloud konsol. Anda dapat memfilter kuota akselerator dan meminta penambahan.

Memilih opsi penggunaan

Gunakan pertimbangan berikut untuk memilih opsi penggunaan terbaik untuk workload AI/ML Anda:

Jenis workload: pertimbangkan jenis workload yang ingin Anda terapkan. Persyaratan GKE bervariasi jika Anda menjalankan workload pelatihan atau inferensi:
- Pelatihan: memerlukan resource berperforma tinggi dengan memori yang signifikan. Workload pelatihan biasanya memiliki masa aktif yang ditentukan dengan baik. Workload ini umumnya lebih mudah direncanakan karena tidak terlalu rentan terhadap lonjakan mendadak dalam penggunaan resource.
- Inferensi: biasanya memerlukan akselerator yang dioptimalkan untuk skalabilitas dan biaya yang lebih rendah. Workload inferensi dapat memerlukan memori akselerator yang signifikan selama lonjakan mendadak dalam penggunaan resource.
Masa aktif berdasarkan fase penerapan: pertimbangkan sasaran bisnis Anda jika Anda menjalankan Proof of Concept (POC), evaluasi platform, pengembangan atau pengujian aplikasi, produksi, atau pengoptimalan.
Waktu penyediaan: tentukan apakah workload Anda memerlukan eksekusi segera atau dapat dijalankan di masa mendatang. Jika eksekusi di masa mendatang memungkinkan, tentukan seberapa fleksibel waktu mulainya.
Keseimbangan antara biaya dan performa: evaluasi persyaratan performa workload dan batasan anggaran Anda untuk memilih akselerator yang paling hemat biaya. Pertimbangkan kompromi antara biaya akselerator dan karakteristik performanya. Ingatlah bahwa akselerator baru mungkin memberikan rasio biaya-performa yang lebih baik.

Gunakan tabel berikut untuk memilih opsi penggunaan:

Jenis workload	Waktu penyediaan	Masa aktif	Opsi penggunaan yang direkomendasikan
Workload berskala besar dan berjalan lama seperti model dasar pra-pelatihan atau inferensi multi-host. Workload produksi.	Segera (dengan pemesanan yang disetujui)	Jangka panjang (per pemesanan)	Jika Anda ingin menggunakan GPU (kecuali A4X, A4, atau A3 Ultra), atau TPU apa pun, gunakan Pemesanan sesuai permintaan: Biaya: Anda akan dikenai biaya untuk seluruh periode pemesanan. Kuota: kuota akan otomatis ditingkatkan sebelum kapasitas dikirimkan.
	Segera (dengan pemesanan yang disetujui)	Jangka panjang (per pemesanan)	Jika Anda ingin menggunakan akselerator G2, A2, A3 High dengan 8 GPU, atau A3 Mega, gunakan Pemesanan untuk masa mendatang: Biaya: Anda akan dikenai biaya untuk seluruh periode pemesanan. Kuota: kuota akan otomatis ditingkatkan sebelum kapasitas dikirimkan.
Workload terdistribusi berjangka pendek seperti fine-tuning model, simulasi, atau inferensi batch, yang memerlukan waktu mulai yang tepat. Workload untuk evaluasi platform, benchmarking, atau pengujian pengoptimalan.	Segera (dengan pemesanan yang disetujui)	Hingga 90 hari	Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender): Biaya: diskon (hingga 53%). Anda akan dikenai biaya untuk periode pemesanan. Kuota: tidak ada kuota yang dikenai biaya. Akselerator yang didukung: A4, A3 Ultra, A3 Mega, A3 High dengan 8 GPU, Ironwood (TPU7x), TPU v6e, TPU v5p, atau TPU v5e.
Workload batch seperti pelatihan model kecil, fine-tuning, atau inferensi yang dapat diskalakan dengan waktu mulai yang fleksibel. Workload untuk POC atau pengujian integrasi.	Sesuai permintaan (tergantung ketersediaan)	Hingga 7 hari per alokasi	Mode penyediaan Flex-start: Biaya: diskon (hingga 53%). Anda membayar sesuai penggunaan. Kuota: kuota GPU Preemptible atau kuota TPU Preemptible akan dikenai biaya. Akselerator yang didukung: semua keluarga GPU kecuali A4X. Semua versi TPU.
Workload fault-tolerant dengan prioritas lebih rendah seperti CI/CD, analisis data, atau komputasi berperforma tinggi (HPC). Workload yang sangat mudah terganggu.	Sesuai permintaan (tergantung ketersediaan)	Variabel, dapat dihentikan dengan peringatan 30 detik	Spot VM: Biaya: diskon besar (hingga 91%). Anda membayar sesuai penggunaan. Kuota: kuota GPU Preemptible atau kuota TPU Preemptible akan dikenai biaya. Akselerator yang didukung: semua keluarga GPU kecuali A4X. Semua versi TPU.
Workload tujuan umum yang memerlukan eksekusi segera.	Segera (tergantung ketersediaan)	Tak terbatas	Sesuai permintaan (GPU atau TPU): Biaya: Anda membayar sesuai penggunaan. Kuota: kuota sesuai permintaan GPU atau TPU akan dikenai biaya. Akselerator yang didukung: semua keluarga GPU kecuali A4X, A4, atau A3 Ultra. Semua versi TPU.

Langkah berikutnya

Pelajari GPU lebih lanjut di GKE.
Pelajari TPU lebih lanjut di GKE.
Pelajari inferensi AI/ML lebih lanjut di GKE .

Tentang opsi penggunaan akselerator untuk workload AI/ML di GKE Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Memahami opsi penggunaan

Memahami kuota akselerator di GKE

Memilih opsi penggunaan

Langkah berikutnya

Tentang opsi penggunaan akselerator untuk workload AI/ML di GKE