GKE에서 AI 추론 모델 서빙을 위한 네트워킹

Last reviewed 2026-05-20 UTC

이 문서에서는 Google Kubernetes Engine (GKE)을 사용하여 다중 모델 추론 서비스를 만드는 참조 아키텍처를 제공합니다. 이 아키텍처에서 GKE 호스팅 추론 풀은 GKE Inference Gateway 뒤에 배치됩니다. 이 아키텍처는 다음과 같은 이점을 제공합니다.

  • 모든 추론 요청을 위한 단일 인터페이스
  • 각 요청을 가장 효율적으로 처리할 수 있는 모델 및 추론 서버로의 지능형 라우팅
  • 중앙 집중식 승인, 보안, 기타 서비스

이 문서는 GKE에서 실행되는 추론 서버의 배포를 통합하는 네트워킹 설계자를 대상으로 합니다. 모든 추론 서버가 GKE에서 호스팅되지 않는 경우 모든 백엔드에서 AI 추론 모델 서빙을 위한 네트워킹을 참조하세요. 이 문서에서는 애플리케이션을 설계하거나 개별 생성형 AI 모델을 배포하는 방법에 대한 안내를 제공하지 않습니다. 모델 배포 방법에 대한 안내는 기업에서 생성형 AI 및 머신러닝 모델 빌드 및 배포를 참조하세요.

이 아키텍처는 분산형 애플리케이션 을 위한 교차 클라우드 네트워크 및 기타 설계와 같은 애플리케이션 네트워킹 아키텍처 와 함께 작동합니다.

아키텍처

다음 다이어그램은 GKE 호스팅 추론 서버 앞에 추론 게이트웨이가 포함된 아키텍처를 보여줍니다. 게이트웨이는 호스팅된 모든 모델에 통합된 서비스를 제공합니다.

AI 추론을 위한 네트워킹에 대한 대략적인 개요

다이어그램에 표시된 아키텍처에는 다음 구성요소가 포함됩니다.

요청 흐름

시스템은 다음과 같이 추론 요청을 라우팅합니다.

  1. 최종 사용자가 Private Service Connect 엔드포인트로 OpenAI API 요청을 보냅니다. 이 요청에는 다음이 포함됩니다.
    • 프롬프트
    • 모델 이름(호스팅된 추론 서버 중 하나의 모델 이름과 일치해야 함)
  2. Private Service Connect 엔드포인트는 요청을 추론 게이트웨이의 리전 내부 애플리케이션 부하 분산기 버전으로 전달합니다.
  3. 게이트웨이는 요청 본문에서 모델 이름을 추출하고 요청 헤더에 본문 기반 라우팅을 사용하여 삽입합니다.
  4. 게이트웨이는 필요한 API 관리 서비스를 위해 요청을 API 관리 시스템으로 전달합니다.
  5. 게이트웨이는 검사를 위해 프롬프트를 Model Armor로 보냅니다.
    • 프롬프트에 수정할 수 없는 민감한 정보가 포함되어 있으면 프롬프트가 차단되고 Model Armor는 정책 위반이 발견되었음을 나타내는 응답을 반환합니다.
    • 프롬프트에 수정할 수 있는 민감한 정보가 포함되어 있거나 프롬프트에 문제가 없는 경우 Model Armor는 민감한 정보를 수정하고 프롬프트를 전달합니다.
  6. 게이트웨이는 요청의 모델과 일치하는 추론 풀 목록을 위해 HTTPRoute를 참조합니다. 이 목록에서 게이트웨이는 우선순위에 따라 하나를 선택합니다.
  7. 게이트웨이는 풀의 모든 복제본에 대한 프리픽스 캐시와 현재 로드를 참조한 다음 이 정보를 사용하여 복제본을 선택합니다.
  8. 복제본은 요청을 처리하고 게이트웨이로 다시 보냅니다.
  9. 게이트웨이는 승인 또는 거부를 위해 응답을 Model Armor로 보냅니다.
  10. 게이트웨이는 응답을 Private Service Connect 엔드포인트로 다시 보내고 최종 사용자에게 전달합니다.

다음 다이어그램은 샘플 배포의 라우팅 뷰를 보여줍니다.

샘플 복제본 세트에 대한 프롬프트 흐름입니다.

이 예시에서 프롬프트는 사용자가 선택한 모델에 따라 처리됩니다.

  • Llama: 시스템은 Llama 모델을 모두 호스팅하는 두 복제본 세트 간에 90/10 비율로 이러한 프롬프트의 부하를 분산합니다. 이 두 복제본 세트는 동일한 방식으로 호스팅될 필요가 없습니다. 예를 들어 한 복제본 세트는 Vertex AI에서 호스팅되고 다른 복제본 세트는 GKE에서 호스팅될 수 있습니다.
  • LoRA-1-gemma 또는 LoRA-2-gemma: 시스템은 두 모델을 모두 처리할 수 있는 동일한 복제본 세트로 모든 프롬프트를 보냅니다.

모든 경우에 게이트웨이는 프리픽스 일치와 최소 로드의 조합을 사용하여 관련 풀에서 복제본을 선택합니다.

사용 제품

이 참조 아키텍처에는 다음과 같은 Google Cloud 제품이 사용됩니다.

  • Google Kubernetes Engine (GKE): Google 인프라를 사용하여 컨테이너화된 애플리케이션을 대규모로 배포 및 운영하는 데 사용할 수 있는 Kubernetes 서비스입니다.
  • GKE Inference Gateway: 생성형 AI 워크로드를 서빙하기 위한 최적화된 라우팅 및 부하 분산을 제공하는 Google Kubernetes Engine 게이트웨이의 확장 프로그램입니다. AI 추론 워크로드의 배포, 관리, 모니터링 가능성을 간소화합니다.
  • 가상 프라이빗 클라우드 (VPC): 워크로드에 확장 가능한 전역 네트워킹 기능을 제공하는 가상 시스템입니다. Google Cloud VPC에는 VPC 네트워크 피어링, Private Service Connect, 비공개 서비스 액세스, 공유 VPC가 포함됩니다.
  • Private Service Connect: 소비자가 VPC 네트워크 내부에서 관리형 서비스에 비공개로 액세스할 수 있도록 지원하는 기능입니다.
  • Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
  • Apigee: API 액세스 및 사용 방식을 세부적으로 제어할 수 있는 API 관리 도구입니다. 보안, 비율 제한, 할당량 적용, 분석을 제공합니다.
  • Model Armor: 프롬프트 인젝션, 민감한 정보 유출, 유해한 콘텐츠로부터 생성형 AI 및 에이전트 AI 리소스를 보호하는 서비스를 제공합니다.

설계 대안

이 섹션에서는 이 아키텍처의 기본 가정에 대한 대안을 설명합니다.

AI 가드레일

AI 가드레일에는 Model Armor를 사용하는 것이 좋습니다. 관리를 중앙 집중화하려면 이 아키텍처에서와 같이 부하 분산기에서 직접 호출하는 것이 좋습니다. 다음과 같은 대체 방법으로 Model Armor를 구현할 수도 있습니다.

  • API 관리 정책을 사용하여 Model Armor를 호출합니다.
  • 복제본에만 Model Armor를 배포합니다.

모델 엔드포인트가 아닌 다른 곳에서 AI 가드레일을 구현하는 경우 Model Armor가 필요하지 않으면 프런트엔드 부하 분산기에서 Model Armor를 사용 중지할 수 있습니다. Model Armor를 사용하지 않으려면 트래픽 확장 프로그램을 사용하여 NVIDIA NeMo Guardrails와 같은 다른 가드레일 제품을 배포할 수 있습니다.

API 관리

이 문서의 아키텍처는 부하 분산기 서비스 확장 프로그램을 사용하여 배포되는 API 관리에 Apigee를 사용합니다. Apigee가 요구사항을 충족하지 않는 경우 Service Extensions를 사용하여 다른 API 관리 서비스를 배포할 수 있습니다.

Service Extensions를 사용하여 API 관리를 배포하는 것이 요구사항을 충족하지 않는 경우 클라이언트 대면 네트워크와 API 대면 네트워크를 배포해야 할 수 있습니다. 이 시나리오에서 API 관리 서비스는 두 네트워크 간의 브리지 역할을 합니다. Apigee에 이를 배포하는 방법에 대한 자세한 내용은 Apigee 네트워킹 옵션을 참조하세요.

다른 네트워크에 연결

이 문서의 아키텍처는 단일 소비자 VPC 네트워크를 사용합니다. 하지만 교차 클라우드 네트워크 배포에서 서비스 액세스 VPC 네트워크를 사용하여 Private Service Connect 엔드포인트를 다른 여러 네트워크와 공유할 수 있습니다. 배포

설계 고려사항

워크로드의 아키텍처를 빌드할 때는 best practices와 Google Cloud Well-Architected Framework에서 제공하는 권장사항을 고려하세요.

보안, 개인 정보 보호, 규정 준수

배포에 분산 서비스 거부 공격 (DDoS) 보호, 웹 애플리케이션 방화벽 (WAF) 기능, IP 주소 검사를 추가하려면 프런트엔드 리전 내부 애플리케이션 부하 분산기에 Google Cloud Armor를 추가하세요.

안정성

리전 오류로부터 보호하려면 멀티 리전 배포 아키타입을 사용하여 배포를 두 번째 리전 에 복제하세요.Google Cloud

비용 최적화

GKE 비용 최적화 권장사항은 권장사항 GKE에서 비용에 최적화된 Kubernetes 애플리케이션을 실행하기 위한 을 참조하세요.

운영 효율성

추론 게이트웨이 대시보드를 사용하여 추론 게이트웨이 추론 요청의 성능을 모니터링합니다. 대시보드는 요청 비율, 지연 시간, 포화도와 같은 오류 및 측정항목을 노출합니다. 대시보드의 발견 항목을 사용하여 배포를 최적화하세요.

성능 최적화

GKE의 추론 권장사항 개요에 있는 권장사항을 따르세요.

배포

이 아키텍처의 샘플 구현을 배포하려면 GitHub에서 제공되는 AI 추론 모델 서빙을 위한 네트워킹 코드 샘플을 사용하세요.

다음 단계

참여자

작성자: 빅터 모레노 | Cloud Networking 제품 관리자

기타 참여자: