Memilih strategi load balancing untuk inferensi model AI/ML di GKE

Autopilot Standard

Halaman ini membantu Anda memilih strategi load balancing yang sesuai untuk workload inferensi model AI/ML di Google Kubernetes Engine (GKE).

Halaman ini ditujukan untuk persona berikut:

Engineer machine learning (ML), Admin dan operator platform, serta Spesialis Data dan AI yang tertarik untuk menggunakan kemampuan orkestrasi kontainer Kubernetes untuk melayani beban kerja AI/ML.
Arsitek cloud dan spesialis Jaringan yang berinteraksi dengan jaringan Kubernetes.

Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.

Sebelum membaca halaman ini, pastikan Anda memahami hal-hal berikut:

Saat men-deploy beban kerja inferensi model AI/ML di GKE, pilih strategi load balancing yang tepat untuk mengoptimalkan performa, skalabilitas, dan efektivitas biaya:

Pilih GKE Inference Gateway untuk perutean dan load balancing yang dioptimalkan untuk menyajikan workload AI/ML.
Pilih GKE Gateway dengan metrik kustom, yang menggunakan Load Balancer Aplikasi. Opsi ini menyediakan kontrol serbaguna dan memungkinkan Anda mengonfigurasi distribusi traffic berdasarkan metrik khusus untuk persyaratan aplikasi atau infrastruktur Anda.

Ringkasan GKE Inference Gateway

GKE Inference Gateway mengoptimalkan dan mengelola workload inferensi AI Generatif (GenAI) dan Model Bahasa Besar (LLM) yang rumit. Fitur ini memperluas GKE Gateway API, yang menawarkan beberapa keunggulan utama:

Perutean cerdas yang mendukung AI: GKE Inference Gateway memantau metrik penting khusus AI, termasuk:
- Penggunaan cache KV server model
- Panjang antrean permintaan yang tertunda
- Penggunaan GPU/TPU secara keseluruhan
- Ketersediaan adaptor LoRA
- Biaya komputasi setiap permintaan Berdasarkan metrik ini, gateway mendistribusikan traffic secara cerdas ke replika server model yang paling sesuai dan paling sedikit beban.
Prioritas permintaan: Gateway menyediakan mekanisme untuk memprioritaskan permintaan.
Penskalaan otomatis yang dioptimalkan: Gateway menawarkan mekanisme penskalaan otomatis yang dioptimalkan untuk server model.

Ringkasan GKE Gateway dengan Metrik Kustom

Google Cloud menawarkan resource Load Balancer Aplikasi yang mendukung cakupan seperti eksternal global dan eksternal regional. Load balancer serbaguna ini mendistribusikan traffic berdasarkan metrik kustom yang dilaporkan oleh layanan backend Anda. Pendekatan ini memberikan kontrol terperinci atas distribusi beban, sehingga Anda dapat mendasarkannya pada indikator performa khusus aplikasi.

Membandingkan GKE Inference Gateway dan GKE Gateway dengan Metrik Kustom

Gunakan tabel berikut untuk membandingkan fitur GKE Inference Gateway dan GKE Gateway dengan Metrik Kustom serta memilih solusi load balancing yang tepat untuk workload inferensi AI/ML Anda di GKE.

Fitur	GKE Inference Gateway	GKE Gateway dengan Metrik Kustom (melalui Load Balancer Aplikasi)
Kasus penggunaan utama	Mengoptimalkan workload inferensi AI generatif dan machine learning di Kubernetes, termasuk inferensi Model Bahasa Besar (LLM). Layanan ini memastikan akses yang adil ke resource model dan mengoptimalkan workload LLM berbasis GPU atau TPU yang sensitif terhadap latensi.	Menyediakan load balancing HTTP(S) serbaguna, mendistribusikan traffic berdasarkan metrik kustom yang dilaporkan aplikasi. Load balancing semacam ini ideal untuk layanan yang sensitif terhadap latensi, seperti server game real-time atau platform perdagangan frekuensi tinggi, yang melaporkan data pemanfaatan kustom.
Perutean dasar	Mendukung perutean HTTP(S) standar berdasarkan host dan jalur, yang memperluas GKE Gateway API.	Mendukung perutean HTTP(S) standar berdasarkan host dan jalur. Anda mengonfigurasi ini menggunakan resource standar GKE Gateway API.
Logika pemilihan rute lanjutan	Menyediakan kemampuan lanjutan seperti perutean yang mendukung model, pemisahan, pencerminan traffic, dan penerapan tingkat prioritas dan kekritisan pada permintaan.	Menyeimbangkan traffic berdasarkan metrik kustom yang dilaporkan oleh aplikasi melalui standar Open Request Cost Aggregation (ORCA). Hal ini memungkinkan kebijakan seperti `WEIGHTED_ROUND_ROBIN` untuk pemberian bobot endpoint dalam lokalitas.
Metrik yang didukung	Memanfaatkan serangkaian metrik native khusus AI, seperti pemanfaatan GPU atau TPU, hit cache KV, dan panjang antrean permintaan. Load balancer juga dapat dikonfigurasi untuk menggunakan metrik yang dilaporkan aplikasi menggunakan mekanisme header HTTP standar.	Mengandalkan metrik yang dilaporkan aplikasi menggunakan mekanisme header HTTP standar, khususnya pelaporan beban Agregasi Biaya Permintaan Terbuka (ORCA). Mekanisme ini mendukung metrik standar seperti CPU dan memori, serta metrik bernama kustom untuk resource yang dibatasi khusus aplikasi.
Penanganan permintaan	Dirancang untuk menangani workload dengan biaya permintaan yang tidak seragam, yang umum dalam LLM karena kompleksitas perintah yang bervariasi. API ini mendukung tingkat kekritisan permintaan, sehingga memungkinkan pemrioritasan berbagai jenis permintaan inferensi.	Paling cocok untuk workload dengan biaya pemrosesan yang relatif seragam untuk setiap permintaan. Solusi ini tidak menyertakan kemampuan prioritas permintaan native.
Dukungan adaptor LoRa	Menawarkan perutean berbasis afinitas native ke backend yang dilengkapi dengan adaptor LoRa tertentu, sehingga memastikan permintaan diarahkan ke resource yang sesuai.	Tidak menyediakan dukungan native untuk adaptor LoRa atau perutean berbasis afinitas berdasarkan konfigurasi LoRa.
Integrasi penskalaan otomatis	Mengoptimalkan penskalaan otomatis untuk server model dengan memanfaatkan metrik khusus AI, seperti pemakaian cache KV, untuk membuat keputusan penskalaan yang lebih tepat.	Terintegrasi dengan Horizontal Pod Autoscaler (HPA) menggunakan metrik kustom. Metrik ini dilaporkan ke Load Balancer Aplikasi dan digunakan secara umum untuk penskalaan, berdasarkan sinyal beban yang dilaporkan.
Penyiapan dan konfigurasi	Konfigurasi dengan GKE Gateway API. Memperluas API standar dengan Definisi Resource Kustom (CRD) `InferencePool` dan `InferenceModel` khusus untuk mengaktifkan fitur yang mendukung AI.	Anda mengonfigurasi solusi ini menggunakan resource standar GKE Gateway API. Aplikasi harus menerapkan mekanisme berbasis header HTTP, seperti Open Request Cost Aggregation (ORCA), untuk melaporkan metrik kustom untuk load balancing.
Keamanan	Solusi ini mencakup pemfilteran konten AI menggunakan Model Armor di tingkat gateway. Solusi ini juga memanfaatkan fitur keamanan GKE dasar, seperti TLS, Identity and Access Management (IAM), role-based access control (RBAC), dan namespace.	Solusi ini menggunakan stack keamanan Load Balancer Aplikasi standar, yang mencakup Google Cloud Armor, penghentian TLS, dan IAM. Untuk mengaktifkan pemfilteran konten buatan AI, Anda dapat mengintegrasikan Google Cloud Armor sebagai Ekstensi Layanan.
Kemampuan observasi	Menawarkan kemampuan pengamatan bawaan ke dalam metrik khusus AI, termasuk pemanfaatan GPU atau TPU, hit cache KV, panjang antrean permintaan, dan latensi model.	Observabilitas bergantung pada metrik kustom yang dikonfigurasi untuk dilaporkan oleh aplikasi. Anda dapat melihatnya di Cloud Monitoring. Ini dapat mencakup metrik standar atau metrik bernama kustom.
Ekstensibilitas	Dibangun di atas fondasi open source yang dapat diperluas, sehingga memungkinkan algoritma Pemilih Endpoint yang dikelola pengguna. API ini memperluas GKE Gateway API dengan [Definisi Resource Kustom (CRD)](/kubernetes-engine/docs/how-to/deploy-gke-inference-gateway) khusus, seperti `InferencePool` dan `InferenceModel`, untuk menyederhanakan kasus penggunaan AI umum.	Dirancang agar fleksibel, sehingga Anda dapat memperluas load balancing menggunakan [metrik kustom (sinyal beban)](/load-balancing/docs/https/applb-custom-metrics) yang dilaporkan aplikasi menggunakan standar ORCA.
Tahap peluncuran	GA	GA

Kapan harus menggunakan GKE Inference Gateway

Pilih GKE Inference Gateway untuk mengoptimalkan workload inferensi AI dan machine learning yang canggih di GKE, terutama untuk Model Bahasa Besar (LLM). Sebaiknya gunakan solusi ini dalam situasi berikut:

Menayangkan LLM: Anda memerlukan keputusan perutean berdasarkan status khusus LLM, seperti pemanfaatan cache KV atau panjang antrean permintaan, saat menggunakan server model seperti vLLM.
Men-deploy model dengan adaptor LoRa: Anda memerlukan perutean cerdas berbasis afinitas ke backend yang dilengkapi dengan adaptor LoRa yang benar dan tersedia.
Menangani permintaan inferensi dengan biaya pemrosesan yang sangat bervariasi: misalnya, ukuran atau kompleksitas perintah dinamis memerlukan load balancer yang sadar biaya.
Menerapkan prioritas permintaan: Anda perlu memprioritaskan berbagai kelas traffic inferensi, seperti permintaan penting, standar, atau yang dapat dihentikan.
Mengoptimalkan penskalaan otomatis: Anda menginginkan mekanisme penskalaan otomatis yang terintegrasi erat dengan metrik performa spesifik server model AI Generatif (GenAI), seperti pemanfaatan cache KV, untuk keputusan penskalaan yang lebih tepat.
Memanfaatkan integrasi Model Armor: Anda harus menggunakan Model Armor untuk pemeriksaan keamanan AI di tingkat gateway.
Mendapatkan kemampuan pengamatan langsung: Anda memerlukan kemampuan pengamatan bawaan untuk metrik penting khusus AI, termasuk pemanfaatan GPU atau TPU, hit cache KV, dan panjang antrean permintaan.
Menyederhanakan deployment GenAI: Anda lebih memilih solusi khusus yang menyederhanakan pola deployment GenAI umum di GKE, sekaligus mempertahankan opsi untuk penyesuaian di masa mendatang melalui fondasi API GKE Gateway yang dapat di-extend.

Kapan harus menggunakan GKE Gateway dengan Metrik Kustom

Untuk mendapatkan load balancing serbaguna yang fleksibel berdasarkan indikator performa unik aplikasi Anda, gunakan GKE Gateway dengan Metrik Kustom. Pendekatan ini memungkinkan distribusi beban berdasarkan indikator performa unik yang ditentukan aplikasi, termasuk skenario inferensi tertentu. Sebaiknya gunakan opsi ini dalam skenario berikut:

Workload Anda memiliki volume traffic yang tinggi dengan biaya pemrosesan per permintaan yang relatif seragam.
Distribusi beban dapat dikelola secara efektif oleh satu atau dua metrik kustom spesifik yang dilaporkan oleh aplikasi, biasanya melalui header respons HTTP menggunakan standar pelaporan beban Open Request Cost Aggregation (ORCA).
Persyaratan load balancing Anda tidak bergantung pada fitur khusus GenAI atau LLM.
Model operasional Anda tidak memerlukan kecerdasan khusus AI yang disediakan oleh GKE Inference Gateway, sehingga menghindari kompleksitas arsitektur yang tidak perlu.
Mempertahankan konsistensi dengan deployment Load Balancer Aplikasi yang ada adalah prioritas, dan deployment ini memenuhi persyaratan load balancing layanan inferensi.

Langkah berikutnya

Pelajari GKE Inference Gateway.
Pelajari Load Balancer Aplikasi.
Jelajahi contoh eksperimental untuk memanfaatkan GKE dalam mempercepat inisiatif AI/ML Anda di GKE AI Labs.

Memilih strategi load balancing untuk inferensi model AI/ML di GKE Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.