Halaman ini menjelaskan teknik yang tersedia yang dapat Anda gunakan untuk mendapatkan akselerator komputasi, seperti GPU atau TPU, berdasarkan persyaratan workload AI/ML Anda. Teknik ini disebut opsi penggunaan akselerator di GKE. Memahami berbagai opsi penggunaan membantu Anda mengoptimalkan penggunaan resource untuk menghindari penggunaan resource yang kurang optimal, meningkatkan kemungkinan mendapatkan resource, dan menyeimbangkan biaya dan performa.
Halaman ini ditujukan untuk admin dan operator Platform yang berkoordinasi dengan engineer Machine Learning (ML) untuk mendapatkan resource yang diperlukan agar berhasil men-deploy workload AI/ML.
Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.
Memahami opsi penggunaan
Anda dapat memilih dari opsi berikut untuk menggunakan akselerator di GKE:
- Sesuai permintaan: Anda menggunakan TPU atau GPU di GKE tanpa mengatur kapasitas terlebih dahulu. Sebelum meminta resource, Anda harus memiliki kuota sesuai permintaan yang cukup untuk jenis dan jumlah akselerator tertentu. Sesuai permintaan adalah opsi penggunaan yang paling fleksibel; namun, tidak ada jaminan bahwa resource sesuai permintaan yang cukup akan tersedia untuk memenuhi permintaan Anda.
- Pemesanan: Anda memesan resource untuk jangka waktu tertentu. Pemesanan dapat berupa salah satu hal berikut:
- Pemesanan untuk masa mendatang: Anda memesan resource untuk durasi yang biasanya lebih lama untuk waktu tertentu di masa mendatang. Anda memiliki akses eksklusif ke resource yang dipesan selama jangka waktu tersebut. Pemesanan untuk masa mendatang memerlukan interaksi dengan Manajer Akun Teknis (TAM). Untuk mengetahui informasi selengkapnya, lihat TPU dan GPU.
- Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender): Anda meminta kapasitas untuk jangka waktu tertentu, dengan penasihat kalender yang menyarankan tanggal yang tersedia. Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender) menawarkan lebih banyak fleksibilitas untuk durasi yang lebih singkat dan penelusuran kapasitas layanan mandiri. Untuk mengetahui informasi selengkapnya, lihat Permintaan pemesanan untuk masa mendatang dalam mode kalender.
- Pemesanan sesuai permintaan: Anda dapat meminta pemesanan sesuai permintaan untuk disediakan segera setelah kapasitas tersedia, mirip dengan opsi sesuai permintaan. Saat pemesanan aktif, Anda membayar resource, baik Anda menggunakannya atau tidak.
- Flex-start: Anda mengamankan resource yang dialokasikan secara padat untuk workload berdurasi singkat tanpa pemesanan. Anda meminta jumlah GPU atau TPU tertentu, dan Compute Engine akan menyediakannya saat kapasitas tersedia. GPU atau TPU berjalan tanpa gangguan hingga tujuh hari. Untuk mengetahui informasi selengkapnya, lihat penyediaan flex-start.
- Spot: Anda menyediakan Spot VM, yang memungkinkan Anda mendapatkan diskon signifikan, tetapi Spot VM dapat dihentikan kapan saja, dengan peringatan 30 detik. Untuk mengetahui informasi selengkapnya, lihat Spot VM.
Memahami kuota akselerator di GKE
Kuota dan batas sistem membatasi penggunaan Google Cloud resource Anda untuk mendukung ketersediaan resource bagi semua Google Cloud pengguna. Kuota memiliki nilai default, tetapi biasanya Anda dapat meminta penyesuaian. Batas sistem adalah nilai tetap yang tidak dapat diubah. Secara default, project umumnya tidak dilengkapi dengan kuota akselerator yang signifikan. Anda harus meminta dan menerima persetujuan untuk kuota untuk jenis dan region akselerator tertentu.
Pertimbangkan karakteristik berikut saat mengelola kuota yang dibutuhkan workload Anda:
Anda harus meminta kuota yang diperlukan untuk setiap opsi penggunaan. Untuk mengidentifikasi kuota yang diperlukan untuk setiap opsi penggunaan, lihat parameter "Kuota" yang sesuai yang tercantum dalam tabel memilih opsi penggunaan. Jika kuota tidak mencukupi, upaya untuk membuat cluster, node pool, atau men-deploy workload yang memerlukan akselerator akan gagal dengan error
Quota exceeded.Anda harus meminta kuota saat menggunakan class komputasi kustom di Autopilot. Node yang disediakan untuk memenuhi persyaratan class komputasi masih menggunakan kuota project Anda untuk akselerator yang ditentukan.
Google Cloud Akun Uji Coba Gratis memiliki batasan untuk meminta penambahan kuota untuk resource bernilai tinggi seperti GPU dan TPU. Untuk memiliki akses ke kuota akselerator, upgrade ke akun berbayar.
Untuk memeriksa dan meminta kuota, buka halaman Kuota di Google Cloud konsol. Anda dapat memfilter kuota akselerator dan meminta penambahan.
Memilih opsi penggunaan
Gunakan pertimbangan berikut untuk memilih opsi penggunaan terbaik untuk workload AI/ML Anda:
- Jenis workload: pertimbangkan jenis workload yang ingin Anda terapkan.
Persyaratan GKE bervariasi jika Anda menjalankan workload pelatihan atau inferensi:
- Pelatihan: memerlukan resource berperforma tinggi dengan memori yang signifikan. Workload pelatihan biasanya memiliki masa aktif yang ditentukan dengan baik. Workload ini umumnya lebih mudah direncanakan karena tidak terlalu rentan terhadap lonjakan mendadak dalam penggunaan resource.
- Inferensi: biasanya memerlukan akselerator yang dioptimalkan untuk skalabilitas dan biaya yang lebih rendah. Workload inferensi dapat memerlukan memori akselerator yang signifikan selama lonjakan mendadak dalam penggunaan resource.
- Masa aktif berdasarkan fase penerapan: pertimbangkan sasaran bisnis Anda jika Anda menjalankan Proof of Concept (POC), evaluasi platform, pengembangan atau pengujian aplikasi, produksi, atau pengoptimalan.
- Waktu penyediaan: tentukan apakah workload Anda memerlukan eksekusi segera atau dapat dijalankan di masa mendatang. Jika eksekusi di masa mendatang memungkinkan, tentukan seberapa fleksibel waktu mulainya.
- Keseimbangan antara biaya dan performa: evaluasi persyaratan performa workload dan batasan anggaran Anda untuk memilih akselerator yang paling hemat biaya. Pertimbangkan kompromi antara biaya akselerator dan karakteristik performanya. Ingatlah bahwa akselerator baru mungkin memberikan rasio biaya-performa yang lebih baik.
Gunakan tabel berikut untuk memilih opsi penggunaan:
| Jenis workload | Waktu penyediaan | Masa aktif | Opsi penggunaan yang direkomendasikan |
|---|---|---|---|
|
Segera (dengan pemesanan yang disetujui) | Jangka panjang (per pemesanan) | Jika Anda ingin menggunakan GPU (kecuali A4X, A4, atau A3 Ultra), atau TPU apa pun, gunakan Pemesanan sesuai permintaan:
|
Jika Anda ingin menggunakan akselerator G2, A2, A3 High dengan 8 GPU, atau A3 Mega, gunakan Pemesanan untuk masa mendatang:
|
|||
|
Segera (dengan pemesanan yang disetujui) | Hingga 90 hari | Pemesanan untuk masa mendatang hingga 90 hari (dalam mode kalender):
|
|
Sesuai permintaan (tergantung ketersediaan) | Hingga 7 hari per alokasi |
|
|
Sesuai permintaan (tergantung ketersediaan) | Variabel, dapat dihentikan dengan peringatan 30 detik |
|
|
Segera (tergantung ketersediaan) | Tak terbatas |
Langkah berikutnya
- Pelajari GPU lebih lanjut di GKE.
- Pelajari TPU lebih lanjut di GKE.
- Pelajari inferensi AI/ML lebih lanjut di GKE .