Halaman ini memberikan ringkasan konseptual tentang Google Kubernetes Engine (GKE) untuk workload AI/ML. GKE adalah implementasi platform orkestrasi container open source Kubernetes yang dikelola Google.
Google Kubernetes Engine menyediakan platform yang skalabel, fleksibel, dan hemat biaya untuk menjalankan semua workload dalam container Anda, termasuk aplikasi kecerdasan buatan dan machine learning (AI/ML). Baik Anda melatih model dasar yang besar, menyajikan permintaan inferensi dalam skala besar, atau membangun platform AI yang komprehensif, GKE menawarkan kontrol dan performa yang Anda butuhkan.
Halaman ini ditujukan untuk spesialis Data dan AI, arsitek Cloud, Operator, dan Developer yang mencari solusi Kubernetes terkelola, otomatis, dan skalabel untuk menjalankan workload AI/ML. Untuk mempelajari peran umum lebih lanjut, lihat Peran dan tugas pengguna GKE umum.
Mulai menggunakan workload AI/ML di GKE
Anda dapat mulai menjelajahi GKE dalam hitungan menit dengan menggunakan paket gratis GKE, yang memungkinkan Anda mulai menggunakan Kubernetes tanpa menimbulkan biaya untuk pengelolaan cluster.
- Coba panduan memulai ini:
- Inferensi di GKE: men-deploy model bahasa besar (LLM) AI di GKE untuk inferensi menggunakan arsitektur yang telah ditentukan sebelumnya.
- Pelatihan di GKE: men-deploy model pelatihan AI di GKE dan menyimpan prediksi di Cloud Storage.
- Baca Tentang opsi pemakaian akselerator untuk workload AI/ML, yang berisi panduan dan referensi untuk merencanakan dan mendapatkan akselerator (GPU dan TPU) untuk platform Anda.
Kasus penggunaan umum
GKE menyediakan platform terpadu yang dapat mendukung semua workload AI Anda.
- Membangun platform AI: Untuk tim platform perusahaan, GKE memberikan fleksibilitas untuk membangun platform multi-tenant standar yang memenuhi beragam kebutuhan.
- Penayangan online latensi rendah: Untuk developer yang membangun aplikasi AI generatif, GKE dengan Inference Gateway menyediakan perutean dan penskalaan otomatis yang dioptimalkan yang diperlukan untuk memberikan pengalaman pengguna yang responsif sekaligus mengontrol biaya.
Memilih platform yang tepat untuk workload AI/ML Anda
Google Cloud menawarkan berbagai produk infrastruktur AI untuk mendukung perjalanan ML Anda, mulai dari yang terkelola sepenuhnya hingga yang dapat dikonfigurasi sepenuhnya. Memilih platform yang tepat bergantung pada kebutuhan spesifik Anda terkait kontrol, fleksibilitas, dan tingkat pengelolaan.
Pilih GKE jika Anda memerlukan kontrol mendalam, portabilitas, dan kemampuan untuk membangun platform AI berperforma tinggi yang disesuaikan.
- Kontrol dan fleksibilitas infrastruktur: Anda memerlukan tingkat kontrol yang tinggi atas infrastruktur, perlu menggunakan pipeline kustom, atau memerlukan penyesuaian tingkat kernel.
- Pelatihan dan inferensi berskala besar: Anda ingin melatih model yang sangat besar atau menyajikan model dengan latensi minimal, dengan menggunakan penskalaan dan performa tinggi GKE.
- Efisiensi biaya dalam skala besar: Anda ingin memprioritaskan pengoptimalan biaya dengan menggunakan integrasi GKE dengan Spot VM dan VM Mulai Fleksibel untuk mengelola biaya secara efektif.
- Portabilitas dan standar terbuka: Anda ingin menghindari keterikatan pada vendor dan menjalankan beban kerja di mana saja dengan Kubernetes, dan Anda sudah memiliki keahlian Kubernetes atau strategi multi-cloud.
Anda juga dapat mempertimbangkan alternatif berikut:
| Google Cloud layanan | Paling cocok untuk |
|---|---|
| Vertex AI | Platform end-to-end yang terkelola sepenuhnya untuk mempercepat pengembangan dan mendelegasikan pengelolaan infrastruktur. Berfungsi dengan baik untuk tim yang berfokus pada MLOps dan waktu pemerolehan manfaat yang cepat. Untuk mengetahui informasi selengkapnya, tonton Memilih antara GKE yang dihosting sendiri dan model AI host Vertex AI terkelola. |
| Cloud Run | Platform serverless untuk beban kerja inferensi dalam container yang dapat diskalakan hingga nol. Berfungsi baik untuk aplikasi berbasis peristiwa dan menyajikan model yang lebih kecil secara hemat biaya. Untuk pembahasan mendalam perbandingan, lihat GKE dan Cloud Run. |
Cara GKE mendukung workload AI/ML
GKE menawarkan serangkaian komponen khusus yang menyederhanakan dan mempercepat setiap tahap siklus proses AI/ML, mulai dari pelatihan berskala besar hingga inferensi latensi rendah.
Tabel berikut merangkum fitur GKE yang mendukung workload AI/ML atau tujuan operasional Anda.
| Workload atau operasi AI/ML | Cara GKE mendukung Anda | Fitur utama |
|---|---|---|
| Inferensi dan penayangan | Dioptimalkan untuk menjalankan model AI secara elastis, dengan latensi rendah, throughput tinggi, dan efisiensi biaya. |
|
| Pelatihan dan penyesuaian | Menyediakan kemampuan penskalaan dan orkestrasi yang diperlukan untuk melatih model yang sangat besar secara efisien sekaligus meminimalkan biaya. |
|
| Pengembangan AI/ML terpadu | Dukungan terkelola untuk Ray, framework open source untuk menskalakan aplikasi Python terdistribusi. |
|
Langkah berikutnya
Untuk menjelajahi koleksi lengkap panduan resmi, tutorial, dan resource lainnya untuk menjalankan workload AI/ML di GKE, buka portal orkestrasi AI/ML di GKE.
Jelajahi contoh eksperimental untuk memanfaatkan GKE dalam mempercepat inisiatif AI/ML Anda di GKE AI Labs.
Lihat detail untuk workload AI/ML Anda di Google Cloud konsol, termasuk resource seperti JobSet, RayJob, PyTorchJob, dan Deployment untuk penayangan inferensi.