Google Kubernetes Engine (GKE) Inference Gateway multi-cluster menyeimbangkan beban kerja inferensi AI/ML di beberapa cluster GKE. Fitur ini mengintegrasikan gateway multi-cluster GKE untuk perutean traffic lintas cluster dengan Inference Gateway untuk penayangan model AI/ML. Integrasi ini meningkatkan skalabilitas dan ketersediaan tinggi deployment Anda. Dokumen ini menjelaskan konsep dan manfaat inti gateway.
Untuk mengetahui informasi selengkapnya tentang cara men-deploy GKE Inference Gateway multi-cluster, lihat Menyiapkan GKE Inference Gateway multi-cluster.
Untuk memahami dokumen ini, Anda harus memahami hal berikut:
- Orkestrasi AI/ML di GKE.
- Terminologi AI generatif.
- Konsep jaringanGKE termasuk Layanan, gateway multi-cluster GKE, dan Gateway API.
- Load balancing di Google Cloud, terutama cara load balancer berinteraksi dengan GKE.
Dokumen ini ditujukan untuk persona berikut:
- Engineer machine learning (ML), Admin dan operator platform, serta spesialis Data dan AI yang tertarik menggunakan kemampuan orkestrasi penampung Kubernetes untuk menayangkan beban kerja AI/ML.
- Arsitek cloud atau spesialis Jaringan yang berinteraksi dengan jaringan Kubernetes.
Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan di Google Cloud konten, lihat Peran dan tugas pengguna GKE Enterprise umum.
Manfaat GKE Inference Gateway multi-cluster
GKE Inference Gateway multi-cluster memberikan beberapa manfaat untuk mengelola beban kerja inferensi AI/ML Anda, termasuk hal berikut:
- Meningkatkan ketersediaan tinggi dan fault tolerance melalui load balancing cerdas di beberapa cluster GKE, bahkan di berbagai wilayah geografis. Beban kerja inferensi Anda tetap tersedia, dan sistem secara otomatis merutekan ulang permintaan jika cluster atau region mengalami masalah, sehingga meminimalkan waktu nonaktif.
- Meningkatkan skalabilitas dan mengoptimalkan penggunaan resource dengan mengumpulkan resource GPU dan TPU dari berbagai cluster untuk menangani peningkatan permintaan. Pengumpulan ini memungkinkan beban kerja Anda melampaui kapasitas satu cluster dan menggunakan resource yang tersedia secara efisien di seluruh fleet Anda.
- Memaksimalkan performa dengan perutean yang dioptimalkan secara global. Gateway menggunakan metrik lanjutan, seperti penggunaan Cache Nilai Kunci (KV) dari semua cluster, untuk membuat keputusan perutean yang efisien. Pendekatan ini membantu memastikan bahwa permintaan masuk ke cluster yang paling siap untuk menanganinya, sehingga memaksimalkan performa keseluruhan untuk fleet inferensi AI/ML Anda.
Batasan
GKE Inference Gateway multi-cluster memiliki batasan berikut:
Integrasi Model Armor: GKE Inference Gateway multi-cluster tidak mendukung integrasi Model Armor.
Pelaporan latensi Envoy Proxy: Envoy Proxy hanya melaporkan latensi kueri untuk permintaan yang berhasil (
2xx). Fitur ini mengabaikan error dan waktu tunggu habis. Perilaku ini dapat menyebabkan Global Server Load Balancer (GSLB) meremehkan beban sebenarnya pada backend yang gagal, yang berpotensi mengarahkan lebih banyak traffic ke layanan yang sudah kelebihan beban. Untuk mengurangi masalah ini, konfigurasikan waktu tunggu permintaan yang lebih besar. Misalnya, nilai600sdirekomendasikan.Batas Grup Endpoint Jaringan (NEG): memiliki batas 50 NEG per Google Cloud Layanan Backend. Saat menggunakan InferencePool multi-port, setiap port di setiap zona akan membuat NEG khusus. Misalnya, InferencePool dengan delapan port dalam cluster regional standar (tiga zona) akan menghasilkan 24 NEG. Oleh karena itu, gateway multi-cluster hanya dapat menggabungkan InferencePool tersebut dari maksimum dua cluster (dua cluster × 24 NEG = 48 NEG) sebelum mencapai batas 50 NEG.
Komponen utama
GKE Inference Gateway multi-cluster menggunakan beberapa resource kustom Kubernetes untuk mengelola beban kerja inferensi dan perutean traffic:
- InferencePool: mengelompokkan backend server model yang identik di cluster target Anda. Resource ini menyederhanakan pengelolaan dan penskalaan instance penayangan model Anda. Objek InferencePool multi-port didukung dalam deployment cluster tunggal dan multi-cluster.
InferenceObjective: menentukan prioritas perutean untuk model tertentu dalam InferencePool. Perutean ini membantu memastikan bahwa model tertentu menerima preferensi traffic berdasarkan persyaratan Anda.GCPInferencePoolImport: membuat backend model Anda tersedia untuk konfigurasi perutean menggunakanHTTPRoutedi cluster konfigurasi. Resource ini dibuat secara otomatis di cluster konfigurasi saat Anda mengekspor InferencePool dari cluster target. Cluster konfigurasi bertindak sebagai titik kontrol pusat untuk lingkungan multi-cluster Anda.GCPBackendPolicy: menyesuaikan cara traffic di-load balance ke backend Anda. Misalnya, Anda dapat mengaktifkan load balancing berdasarkan metrik kustom atau menetapkan batas pada permintaan yang sedang berlangsung per endpoint untuk melindungi server model Anda.AutoscalingMetric: menentukan metrik kustom, sepertivllm:kv_cache_usage_perc, untuk diekspor dari server model Anda. Anda kemudian dapat menggunakan metrik ini dalamGCPBackendPolicyuntuk membuat keputusan load balancing yang lebih cerdas, serta mengoptimalkan performa dan penggunaan resource.
Cara kerja GKE Inference Gateway multi-cluster
GKE Inference Gateway multi-cluster mengelola dan merutekan traffic ke model AI/ML yang di-deploy di beberapa cluster GKE. Cara kerjanya sebagai berikut:
- Pengelolaan traffic terpusat: cluster konfigurasi khusus menentukan aturan perutean traffic Anda. Cluster konfigurasi bertindak sebagai titik kontrol pusat untuk lingkungan multi-cluster Anda. Anda menetapkan cluster GKE sebagai cluster konfigurasi saat mengaktifkan Ingress multi-cluster untuk fleet Anda. Pendekatan terpusat ini memungkinkan Anda mengelola cara permintaan diarahkan ke model di seluruh fleet cluster GKE dari satu tempat.
- Deployment model yang fleksibel: model AI/ML Anda yang sebenarnya berjalan di cluster target terpisah. Pemisahan ini memungkinkan Anda men-deploy model di tempat yang paling sesuai (misalnya, lebih dekat ke data atau ke cluster dengan hardware tertentu).
- Integrasi model yang mudah: saat men-deploy model di cluster target, Anda mengelompokkan instance penayangannya menggunakan InferencePool. Mengekspor InferencePool ini akan otomatis membuatnya tersedia untuk perutean di cluster konfigurasi Anda.
- Load balancing cerdas: gateway tidak hanya mendistribusikan traffic, tetapi juga membuat keputusan perutean yang cerdas. Dengan mengonfigurasinya untuk menggunakan berbagai sinyal, termasuk metrik kustom dari server model Anda, gateway membantu memastikan bahwa permintaan masuk dikirim ke cluster atau instance model yang paling siap, yang dapat memaksimalkan performa dan penggunaan resource. Misalnya, Anda dapat merutekan permintaan ke cluster dengan kapasitas inferensi yang paling tersedia berdasarkan metrik seperti penggunaan Cache Nilai Kunci (KV).
Langkah berikutnya
- Untuk men-deploy gateway, lihat Menyiapkan GKE multi-cluster Inference Gateway.
- Untuk mempelajari cara menggunakan kolom
scopesdiGCPBackendPolicyresource, lihat Menyesuaikan konfigurasi backend denganGCPBackendPolicycakupan.