Pengantar workload AI/ML di GKE

Halaman ini memberikan ringkasan konseptual Google Kubernetes Engine (GKE) untuk workload AI/ML. GKE adalah implementasi platform orkestrasi container open source Kubernetes yang dikelola Google.

Google Kubernetes Engine menyediakan platform yang skalabel, fleksibel, dan hemat biaya untuk menjalankan semua workload dalam container, termasuk aplikasi kecerdasan buatan dan machine learning (AI/ML). Baik Anda melatih model dasar yang besar, menayangkan permintaan inferensi dalam skala besar, atau membangun platform AI yang komprehensif, GKE menawarkan kontrol dan performa yang Anda butuhkan.

Halaman ini ditujukan untuk spesialis Data dan AI, arsitek Cloud, Operator, dan Developer yang mencari solusi Kubernetes terkelola, otomatis, dan skalabel untuk menjalankan workload AI/ML. Untuk mempelajari lebih lanjut peran umum, lihat Peran dan tugas pengguna GKE umum.

Mulai menggunakan workload AI/ML di GKE

Anda dapat mulai menjelajahi GKE dalam hitungan menit dengan menggunakan paket gratis GKE, yang memungkinkan Anda mulai menggunakan Kubernetes tanpa dikenai biaya untuk pengelolaan cluster.

  1. Mulai di Google Cloud konsol

  2. Coba panduan memulai berikut:
    • Inferensi di GKE: men-deploy model bahasa besar (LLM) AI di GKE untuk inferensi menggunakan arsitektur yang telah ditentukan sebelumnya.
    • Pelatihan di GKE: men-deploy model pelatihan AI di GKE dan menyimpan prediksi di Cloud Storage.
  3. Baca Tentang opsi penggunaan akselerator untuk workload AI/ML, yang berisi panduan dan referensi untuk merencanakan dan mendapatkan akselerator (GPU dan TPU) untuk platform Anda.

Kasus penggunaan umum

GKE menyediakan platform terpadu yang dapat mendukung semua workload AI Anda.

  • Membangun platform AI: untuk tim platform perusahaan, GKE memberikan fleksibilitas untuk membangun platform multi-tenant standar yang memenuhi berbagai kebutuhan.
  • Penyajian online latensi rendah: Untuk developer yang membangun aplikasi AI generatif, GKE dengan Inference Gateway menyediakan perutean dan penskalaan otomatis yang dioptimalkan yang diperlukan untuk memberikan pengalaman pengguna yang responsif sekaligus mengontrol biaya.

Memilih platform yang tepat untuk workload AI/ML Anda

Google Cloud menawarkan spektrum produk infrastruktur AI untuk mendukung perjalanan ML Anda, dari yang terkelola sepenuhnya hingga yang dapat dikonfigurasi sepenuhnya. Memilih platform yang tepat bergantung pada kebutuhan spesifik Anda untuk kontrol, fleksibilitas, dan tingkat pengelolaan.

Praktik terbaik:

Pilih GKE jika Anda memerlukan kontrol mendalam, portabilitas, dan kemampuan untuk membangun platform AI berperforma tinggi yang disesuaikan.

  • Kontrol dan fleksibilitas infrastruktur: Anda memerlukan tingkat kontrol yang tinggi atas infrastruktur, perlu menggunakan pipeline kustom, atau memerlukan penyesuaian tingkat kernel.
  • Pelatihan dan inferensi skala besar: Anda ingin melatih model yang sangat besar atau menayangkan model dengan latensi minimal, dengan menggunakan penskalaan dan performa tinggi GKE.
  • Efisiensi biaya dalam skala besar: Anda ingin memprioritaskan pengoptimalan biaya dengan menggunakan integrasi GKE dengan Spot VM dan Flex-start VM untuk mengelola biaya secara efektif.
  • Portabilitas dan standar terbuka: Anda ingin menghindari vendor lock-in dan menjalankan workload di mana saja dengan Kubernetes, dan Anda sudah memiliki keahlian Kubernetes atau strategi multi-cloud.

Anda juga dapat mempertimbangkan alternatif berikut:

Google Cloud layanan Paling cocok untuk
Vertex AI Platform end-to-end yang terkelola sepenuhnya untuk mempercepat pengembangan dan mengalihkan pengelolaan infrastruktur. Cocok untuk tim yang berfokus pada MLOps dan waktu pemerolehan manfaat yang cepat. Untuk mengetahui informasi selengkapnya, tonton Memilih antara GKE yang dihosting sendiri dan model AI host Vertex AI terkelola.
Cloud Run Platform serverless untuk workload inferensi dalam container yang dapat diskalakan ke nol. Cocok untuk aplikasi berbasis peristiwa dan menayangkan model yang lebih kecil secara hemat biaya. Untuk mengetahui perbandingan mendalam, lihat GKE dan Cloud Run.

Cara GKE mendukung workload AI/ML

GKE menawarkan serangkaian komponen khusus yang menyederhanakan dan mempercepat setiap tahap siklus proses AI/ML, mulai dari pelatihan skala besar hingga inferensi latensi rendah.

Dalam diagram berikut, GKE berada dalam Google Cloud
       dan dapat menggunakan berbagai opsi penyimpanan cloud (seperti Cloud Storage FUSE dan Managed Lustre) serta berbagai opsi infrastruktur cloud
       (seperti Cloud TPU dan Cloud GPU). GKE juga berfungsi dengan software dan framework open source untuk deep learning (seperti JAX atau TensorFlow), orkestrasi ML (seperti Jupyter atau Ray), dan inferensi LLM (seperti vLLM atau NVIDIA Dynamo).
Gambar 1: GKE sebagai platform terkelola yang skalabel untuk workload AI/ML.

Tabel berikut merangkum fitur GKE yang mendukung workload AI/ML atau sasaran operasional Anda.

Workload atau operasi AI/ML Cara GKE mendukung Anda Fitur utama
Inferensi dan penayangan Dioptimalkan untuk menayangkan model AI secara elastis, dengan latensi rendah, throughput tinggi, dan efisiensi biaya.
  • Fleksibilitas akselerator: GKE mendukung GPU dan TPU untuk inferensi.
  • GKE Inference Gateway: gateway yang mendukung model yang menyediakan perutean dan load balancing cerdas khusus untuk workload inferensi AI.
  • Panduan Memulai Inferensi GKE: alat untuk menyederhanakan analisis performa dan deployment dengan menyediakan serangkaian profil tolok ukur untuk model AI populer.
  • GKE Autopilot: mode operasi GKE yang mengotomatiskan operasi cluster dan penyesuaian ukuran kapasitas, sehingga mengurangi overhead.
Pelatihan dan fine-tuning Menyediakan kemampuan skala dan orkestrasi yang diperlukan untuk melatih model yang sangat besar secara efisien sekaligus meminimalkan biaya.
  • Node startup yang lebih cepat: pengoptimalan yang dirancang khusus untuk workload GPU yang mengurangi waktu startup node hingga 80%.
  • Mode penyediaan flex-start yang didukung oleh Dynamic Workload Scheduler: meningkatkan kemampuan Anda untuk mengamankan akselerator GPU dan TPU yang langka untuk workload pelatihan berdurasi singkat.
  • Kueue: sistem antrean tugas berbasis Kubernetes yang mengelola alokasi resource, penjadwalan, pengelolaan kuota, dan prioritas untuk workload batch.
  • TPU multislice: arsitektur hardware dan jaringan yang memungkinkan beberapa slice TPU berkomunikasi satu sama lain melalui Data Center Network (DCN) untuk mencapai pelatihan skala besar.
Pengembangan AI/ML terpadu Dukungan terkelola untuk Ray, framework open source untuk menskalakan aplikasi Python terdistribusi.
  • Add-on Ray di GKE: mengabstraksi infrastruktur Kubernetes, sehingga memungkinkan Anda menskalakan workload seperti prapemrosesan data skala besar, pelatihan terdistribusi, dan penayangan online dengan perubahan kode minimal.

Langkah berikutnya