Tentang Inference Gateway multi-cluster GKE

Inference Gateway multi-cluster Google Kubernetes Engine (GKE) menyeimbangkan beban workload inferensi AI/ML Anda di beberapa cluster GKE. Integrasi ini menggabungkan gateway multi-cluster GKE untuk perutean traffic lintas cluster dengan Inference Gateway untuk penayangan model AI/ML. Integrasi ini meningkatkan skalabilitas dan ketersediaan tinggi deployment Anda. Dokumen ini menjelaskan konsep dan manfaat inti gateway.

Untuk mengetahui informasi selengkapnya tentang cara men-deploy Inference Gateway multi-cluster GKE, lihat Menyiapkan Inference Gateway multi-cluster GKE.

Untuk memahami dokumen ini, Anda harus memahami hal-hal berikut:

Dokumen ini menargetkan persona berikut:

  • Engineer machine learning (ML), Admin dan operator platform, serta Spesialis Data dan AI yang tertarik menggunakan kemampuan orkestrasi kontainer Kubernetes untuk menyajikan beban kerja AI/ML.
  • Arsitek cloud atau spesialis Jaringan yang berinteraksi dengan jaringan Kubernetes.

Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE Enterprise umum.

Manfaat Inference Gateway multi-cluster GKE

Inference Gateway multi-cluster GKE memberikan beberapa manfaat untuk mengelola workload inferensi AI/ML Anda, termasuk berikut ini:

  • Meningkatkan ketersediaan tinggi dan fault tolerance melalui load balancing cerdas di beberapa cluster GKE, bahkan di berbagai wilayah geografis. Workload inferensi Anda tetap tersedia, dan sistem secara otomatis mengalihkan permintaan jika cluster atau region mengalami masalah, sehingga meminimalkan periode nonaktif.
  • Meningkatkan skalabilitas dan mengoptimalkan penggunaan resource dengan mengumpulkan resource GPU dan TPU dari berbagai cluster untuk menangani peningkatan permintaan. Penggabungan ini memungkinkan beban kerja Anda melampaui kapasitas satu cluster dan menggunakan resource yang tersedia secara efisien di seluruh armada Anda.
  • Memaksimalkan performa dengan perutean yang dioptimalkan secara global. Gateway menggunakan metrik lanjutan, seperti penggunaan Cache Nilai Kunci (KV) dari semua cluster, untuk membuat keputusan perutean yang efisien. Pendekatan ini membantu memastikan bahwa permintaan ditujukan ke cluster yang paling siap untuk menanganinya, sehingga memaksimalkan performa keseluruhan untuk fleet inferensi AI/ML Anda.

Batasan

Inference Gateway multi-cluster GKE memiliki batasan berikut:

  • Integrasi Model Armor: Inference Gateway multi-cluster GKE tidak mendukung integrasi Model Armor.

  • Pelaporan latensi Envoy Proxy: Envoy Proxy hanya melaporkan latensi kueri untuk permintaan yang berhasil (2xx). Tindakan ini mengabaikan error dan waktu tunggu. Perilaku ini dapat menyebabkan Global Server Load Balancer (GSLB) meremehkan beban sebenarnya pada backend yang gagal, sehingga berpotensi mengarahkan lebih banyak traffic ke layanan yang sudah kelebihan beban. Untuk mengurangi masalah ini, konfigurasikan waktu tunggu permintaan yang lebih lama. Misalnya, nilai 600s direkomendasikan.

Komponen utama

Multi-cluster Inference Gateway GKE menggunakan beberapa resource kustom Kubernetes untuk mengelola workload inferensi dan perutean traffic:

  • InferencePool: mengelompokkan backend server model yang identik di cluster target Anda. Resource ini menyederhanakan pengelolaan dan penskalaan instance penayangan model Anda.
  • InferenceObjective: menentukan prioritas pemilihan rute untuk model tertentu dalam InferencePool. Perutean ini membantu memastikan bahwa model tertentu menerima preferensi traffic berdasarkan persyaratan Anda.
  • GCPInferencePoolImport: membuat backend model Anda tersedia untuk konfigurasi pemilihan rute dengan menggunakan HTTPRoute di cluster config. Resource ini dibuat secara otomatis di cluster konfigurasi Anda saat Anda mengekspor InferencePool dari cluster target. Cluster konfigurasi berfungsi sebagai titik kontrol pusat untuk lingkungan multi-cluster Anda.
  • GCPBackendPolicy: menyesuaikan cara traffic di-load balance ke backend Anda. Misalnya, Anda dapat mengaktifkan load balancing berdasarkan metrik kustom atau menetapkan batas pada permintaan dalam proses per endpoint untuk melindungi server model Anda.
  • AutoscalingMetric: menentukan metrik kustom, seperti vllm:kv_cache_usage_perc, untuk diekspor dari server model Anda. Anda kemudian dapat menggunakan metrik ini dalam GCPBackendPolicy untuk membuat keputusan penyeimbangan beban yang lebih cerdas, serta mengoptimalkan performa dan pemanfaatan resource.

Cara kerja Inference Gateway multi-cluster GKE

Inference Gateway multi-cluster GKE mengelola dan merutekan traffic ke model AI/ML Anda yang di-deploy di beberapa cluster GKE. Cara kerjanya sebagai berikut:

  • Pengelolaan traffic terpusat: cluster konfigurasi khusus menentukan aturan perutean traffic Anda. Cluster konfigurasi berfungsi sebagai titik kontrol pusat untuk lingkungan multi-cluster Anda. Anda menetapkan cluster GKE sebagai cluster konfigurasi saat mengaktifkan Ingress multi-cluster untuk fleet Anda. Pendekatan terpusat ini memungkinkan Anda mengelola cara permintaan diarahkan ke model di seluruh fleet cluster GKE dari satu tempat.
  • Deployment model yang fleksibel: model AI/ML Anda yang sebenarnya berjalan di target cluster yang terpisah. Pemisahan ini memungkinkan Anda men-deploy model di tempat yang paling masuk akal (misalnya, lebih dekat dengan data atau ke cluster dengan hardware tertentu).
  • Integrasi model yang mudah: saat men-deploy model di cluster target, Anda mengelompokkan instance penayangannya menggunakan InferencePool. Mengekspor InferencePool ini akan otomatis menyediakannya untuk pemilihan rute di cluster konfigurasi Anda.
  • Load balancing cerdas: gateway tidak hanya mendistribusikan traffic, tetapi juga membuat keputusan perutean yang cerdas. Dengan mengonfigurasinya untuk menggunakan berbagai sinyal, termasuk metrik kustom dari server model Anda, gateway membantu memastikan bahwa permintaan yang masuk dikirim ke cluster atau instance model yang paling siap, yang dapat memaksimalkan performa dan pemanfaatan resource. Misalnya, Anda dapat merutekan permintaan ke cluster dengan kapasitas inferensi yang paling tersedia berdasarkan metrik seperti penggunaan Cache Key-Value (KV).

Langkah berikutnya