Tentang kepatuhan AI GKE

Dokumen ini menjelaskan apa yang dimaksud dengan program kesesuaian AI Kubernetes, mengapa program ini penting untuk workload AI/ML Anda di Google Kubernetes Engine (GKE), dan cara menyiapkan cluster GKE yang sesuai.

Mengapa kesesuaian AI penting untuk cluster GKE Anda

Program kesesuaian AI Kubernetes menentukan standar untuk cluster Kubernetes guna memastikan cluster tersebut dapat menjalankan workload AI dan ML secara andal dan efisien. Menyiapkan cluster Kubernetes untuk AI/ML bisa jadi rumit. Hal ini sering kali melibatkan navigasi lanskap instalasi driver tertentu, versi API, dan potensi solusi untuk bug yang tidak terduga.

Platform yang sesuai seperti GKE dirancang untuk menangani kompleksitas yang mendasarinya bagi Anda, sehingga menyediakan jalur dari penyiapan hingga deployment. Dengan membuat versi GKE yang sesuai, Anda dapat yakin bahwa lingkungan Anda dioptimalkan untuk kriteria seperti berikut:

  • Skalabilitas: menskalakan workload AI/ML Anda secara efisien ke atas dan ke bawah berdasarkan permintaan.
  • Performa: memaksimalkan hardware Anda, termasuk GPU dan TPU.
  • Portabilitas: menjalankan aplikasi AI/ML Anda di cluster Kubernetes yang sesuai dengan perubahan minimal.
  • Interoperabilitas: berintegrasi dengan alat dan framework lain dalam ekosistem AI/ML.

Cara membuat cluster GKE yang sesuai dengan AI

Untuk membuat cluster GKE yang sesuai dengan AI, Anda harus melakukan hal berikut:

  1. Periksa repositori GitHub ai-conformance untuk melihat daftar versi yang sesuai.
  2. Buat cluster GKE dalam mode Standar yang berjalan pada versi yang sesuai, seperti 1.34.0-gke.1662000 atau yang lebih baru.
  3. Aktifkan Gateway API di cluster Anda.

Cluster Anda kini memenuhi persyaratan wajib untuk kesesuaian AI Kubernetes.

Apa yang membuat GKE menjadi platform yang sesuai dengan AI Kubernetes

GKE mengelola persyaratan dasar untuk kesesuaian AI sehingga Anda tidak perlu melakukannya. Tabel berikut menyoroti beberapa fitur utama untuk workload AI/ML. Beberapa fitur ini diaktifkan secara default, tetapi fitur lainnya, seperti Kueue untuk penjadwalan grup, adalah tambahan opsional yang dapat Anda instal untuk meningkatkan workload AI/ML.

Program kesesuaian AI Kubernetes dirancang untuk berkembang bersama ekosistem AI/ML. Persyaratan diperbarui dengan setiap rilis versi minor Kubernetes berdasarkan status ekosistem. Untuk mengetahui kumpulan persyaratan lengkap untuk versi minor tertentu, di repositori GitHub ai-conformance, lihat file docs/AIConformance-MINOR_VERSION.yaml, dengan MINOR_VERSION adalah versi spesifik Anda, seperti v1.34.

Persyaratan
Alokasi resource dinamis (DRA) Memungkinkan permintaan resource yang lebih fleksibel dan mendetail di luar jumlah. Untuk mengetahui informasi selengkapnya, lihat Tentang alokasi resource dinamis.
Kubernetes Gateway API Menyediakan pengelolaan traffic lanjutan untuk layanan inferensi, yang memungkinkan kemampuan seperti pemisahan traffic berbobot dan perutean berbasis header. Untuk mengetahui informasi selengkapnya, lihat Tentang GKE Gateway API.
Penjadwalan grup Memastikan penjadwalan semua atau tidak sama sekali untuk workload AI terdistribusi. GKE memungkinkan penginstalan dan pengoperasian yang berhasil dari setidaknya satu solusi penjadwalan grup. Untuk contohnya, lihat Men-deploy sistem batch menggunakan Kueue.
Autoscaler cluster untuk akselerator Menskalakan grup node yang berisi jenis akselerator tertentu ke atas dan ke bawah, berdasarkan Pod yang tertunda yang meminta akselerator tersebut. Untuk mengetahui informasi selengkapnya, lihat:
Autoscaler Pod Horizontal (HPA) untuk akselerator Berfungsi dengan benar untuk Pod yang menggunakan akselerator, termasuk kemampuan untuk menskalakan Pod ini berdasarkan metrik kustom yang relevan dengan workload AI/ML. Untuk mengetahui informasi selengkapnya, lihat:
Metrik performa akselerator Mengekspos metrik performa mendetail dengan menggunakan endpoint metrik format standar yang dapat dibaca mesin. Untuk mengetahui informasi selengkapnya, lihat:
Pemantauan standar Menyediakan sistem pemantauan yang dapat menemukan dan mengumpulkan metrik dari workload yang mengeksposnya dalam format standar (misalnya, format eksposisi Prometheus). Untuk mengetahui informasi selengkapnya, lihat Kemampuan observasi untuk GKE.
Dukungan operator AI Harus membuktikan bahwa setidaknya satu operator AI kompleks dengan definisi resource kustom (CRD) dapat diinstal di platform dan berfungsi dengan andal. Untuk mengetahui informasi selengkapnya, lihat Membangun Platform Machine Learning dengan Kubeflow dan Ray di Google Kubernetes Engine.

Langkah berikutnya