Tentang kepatuhan AI GKE

Dokumen ini menjelaskan apa itu program kepatuhan AI Kubernetes, mengapa program ini penting untuk workload AI/ML Anda di Google Kubernetes Engine (GKE), dan cara menyiapkan cluster GKE yang sesuai.

Alasan pentingnya kepatuhan AI untuk cluster GKE Anda

Program kepatuhan AI Kubernetes menentukan standar untuk cluster Kubernetes guna memastikan cluster tersebut dapat menjalankan workload AI dan ML secara andal dan efisien. Menyiapkan cluster Kubernetes untuk AI/ML bisa jadi rumit. Hal ini sering kali melibatkan penelusuran lanskap penginstalan driver tertentu, versi API, dan potensi solusi untuk bug yang tidak terduga.

Platform yang sesuai seperti GKE didesain untuk menangani kompleksitas yang mendasarinya bagi Anda, sehingga memberikan jalur dari penyiapan hingga deployment. Dengan membangun versi GKE yang sesuai, Anda dapat yakin bahwa lingkungan Anda dioptimalkan untuk kriteria seperti berikut:

  • Skalabilitas: menskalakan workload AI/ML Anda secara efisien berdasarkan permintaan.
  • Performa: dapatkan hasil maksimal dari hardware Anda, termasuk GPU dan TPU.
  • Portabilitas: jalankan aplikasi AI/ML Anda di cluster Kubernetes yang sesuai dengan perubahan minimal.
  • Interoperabilitas: terintegrasi dengan alat dan framework lain dalam ekosistem AI/ML.

Cara membuat cluster GKE yang sesuai dengan AI

Untuk membuat cluster GKE yang sesuai dengan AI, Anda harus melakukan hal berikut:

  1. Periksa repositori GitHub ai-conformance untuk melihat daftar versi yang sesuai.
  2. Buat cluster GKE dalam mode Standard yang berjalan di versi yang sesuai, seperti 1.34.0-gke.1662000 atau yang lebih baru.
  3. Aktifkan Gateway API di cluster Anda.

Cluster Anda kini memenuhi persyaratan wajib untuk kepatuhan AI Kubernetes.

Yang membuat GKE menjadi platform yang sesuai dengan AI Kubernetes

GKE mengelola persyaratan dasar untuk kepatuhan AI sehingga Anda tidak perlu melakukannya. Tabel berikut menyoroti beberapa fitur utama ini untuk beban kerja AI/ML. Beberapa fitur ini diaktifkan secara default, tetapi fitur lainnya, seperti Kueue untuk penjadwalan berkelompok, adalah tambahan opsional yang dapat Anda instal untuk meningkatkan kualitas workload AI/ML.

Program kepatuhan AI Kubernetes dirancang untuk berkembang seiring dengan ekosistem AI/ML. Persyaratan diperbarui dengan setiap rilis versi minor Kubernetes berdasarkan status ekosistem. Untuk mengetahui persyaratan lengkap untuk versi minor tertentu, di repositori GitHub ai-conformance, lihat file docs/AIConformance-MINOR_VERSION.yaml, dengan MINOR_VERSION adalah versi spesifik Anda, seperti v1.34.

Persyaratan
Alokasi resource dinamis (DRA) Memungkinkan permintaan resource yang lebih fleksibel dan mendetail di luar jumlah. Untuk mengetahui informasi selengkapnya, lihat Tentang alokasi resource dinamis.
Kubernetes Gateway API Menyediakan pengelolaan traffic lanjutan untuk layanan inferensi, yang memungkinkan kemampuan seperti pembagian traffic berbobot dan perutean berbasis header. Untuk mengetahui informasi selengkapnya, lihat Tentang GKE Gateway API.
Penjadwalan kelompok Memastikan penjadwalan semua atau tidak sama sekali untuk workload AI terdistribusi. GKE memungkinkan penginstalan dan pengoperasian yang berhasil dari setidaknya satu solusi penjadwalan kelompok. Untuk contohnya, lihat Men-deploy sistem batch menggunakan Kueue.
Autoscaler cluster untuk akselerator Menskalakan grup node yang berisi jenis akselerator tertentu ke atas dan ke bawah, berdasarkan Pod yang tertunda yang meminta akselerator tersebut. Untuk mengetahui informasi selengkapnya, lihat:
Penskalaan Otomatis Pod Horizontal (HPA) untuk akselerator Berfungsi dengan benar untuk Pod yang menggunakan akselerator, termasuk kemampuan untuk menskalakan Pod ini berdasarkan metrik kustom yang relevan dengan workload AI/ML. Untuk mengetahui informasi selengkapnya, lihat:
Metrik performa akselerator Mengekspos metrik performa terperinci menggunakan endpoint metrik format standar yang dapat dibaca mesin. Untuk mengetahui informasi selengkapnya, lihat:
Pemantauan standar Menyediakan sistem pemantauan yang mampu menemukan dan mengumpulkan metrik dari workload yang mengeksposnya dalam format standar (misalnya, format eksposisi Prometheus). Untuk mengetahui informasi selengkapnya, lihat Kemampuan observasi untuk GKE.
Dukungan operator AI Harus membuktikan bahwa setidaknya satu operator AI kompleks dengan definisi resource kustom (CRD) dapat diinstal di platform dan berfungsi dengan andal. Untuk mengetahui informasi selengkapnya, lihat Membangun Platform Machine Learning dengan Kubeflow dan Ray di Google Kubernetes Engine.

Langkah berikutnya