Redes para la entrega de modelos de inferencia de IA en GKE

Last reviewed 2026-05-20 UTC

En este documento, se proporciona una arquitectura de referencia para crear un servicio de inferencia de varios modelos con Google Kubernetes Engine (GKE). En la arquitectura, los grupos de inferencia alojados en GKE se colocan detrás de una puerta de enlace de inferencia de GKE. Esta arquitectura proporciona los siguientes beneficios:

  • Una sola interfaz para todas tus solicitudes de inferencia
  • Enrutamiento inteligente para cada solicitud al modelo y al servidor de inferencia que puede controlarla de manera más eficiente
  • Autorización, seguridad y otros servicios centralizados

Este documento está dirigido a los arquitectos de redes responsables de unificar la implementación de servidores de inferencia que se ejecutan en GKE. Si todos tus servidores de inferencia no están alojados en GKE, consulta Herramientas de redes para la entrega de modelos de inferencia de IA en todos los backends. En este documento, no se proporciona orientación sobre cómo diseñar una aplicación ni implementar un modelo de IA generativa individual. Para obtener orientación sobre cómo implementar un modelo, consulta Crea e implementa modelos de IA generativa y aprendizaje automático en una empresa.

Esta arquitectura funciona con las arquitecturas de redes de aplicaciones Red Multinube para aplicaciones distribuidas y otros diseños.

Arquitectura

En el siguiente diagrama, se muestra una arquitectura que contiene una puerta de enlace de inferencia frente a los servidores de inferencia alojados en GKE. La puerta de enlace proporciona servicios consolidados para todos los modelos alojados.

Descripción general de alto nivel de las redes para la inferencia de IA.

La arquitectura del diagrama incluye los siguientes componentes:

  • Extremo de inferencia de Private Service Connect: Un extremo unificado para todos los modelos alojados. El usuario final envía solicitudes de inferencia a la dirección IP del extremo. En el diagrama, se muestra un extremo de Private Service Connect en una sola red de nube privada virtual (VPC) de consumidor. Puedes alojar extremos en varias redes de VPC o en una red de VPC de servicios compartidos.
  • Puerta de enlace de inferencia: La puerta de enlace de inferencia mejora la puerta de enlace de GKE para optimizar la forma en que GKE entrega aplicaciones y cargas de trabajo de IA generativa. Enruta el tráfico a los grupos de inferencia de réplicas de modelos según el nombre del modelo. La puerta de enlace usa la coincidencia de prefijos para enrutar el tráfico dentro del grupo de réplicas. Si no hay una coincidencia de prefijo, el procesador de inferencia de la puerta de enlace usa las métricas de Prometheus de GPU o TPU para elegir la réplica menos cargada dentro del grupo. El procesador de inferencia también controla el almacenamiento en caché de prefijos. En esta arquitectura, la aplicación orientada al cliente realiza llamadas a la API de OpenAI para acceder a los modelos a través de la puerta de enlace. La puerta de enlace se implementa en función de un balanceador de cargas de aplicaciones interno regional (gke-l7-rilb), por lo que no se puede acceder a ella directamente desde Internet.
    • Administración de API: Un administrador de API proporciona autenticación, seguridad, límite de frecuencia, seguimiento de cuotas y otros servicios de administración de API. Esta arquitectura usa Apigee, pero admite otras opciones. Para llamar a Apigee desde el balanceador de cargas, la arquitectura y la implementación de Terraform usan una extensión de tráfico de Service Extensions para llamar al procesador de extensiones de Apigee.
    • Model Armor: Un sistema de límites funcionales de IA que realiza verificaciones de seguridad en las instrucciones de inferencia antes de que lleguen al servidor de inferencia. Luego, realiza verificaciones de seguridad en las respuestas salientes. Esta arquitectura usa Model Armor para los límites funcionales de IA, pero también admite otras opciones, como los límites funcionales de NVIDIA Nemo. La implementación de Terraform que se proporciona con esta arquitectura de referencia incluye una configuración básica de Model Armor.
  • Grupos de inferencia: Un grupo de inferencia contiene réplicas del mismo modelo. Cuando la puerta de enlace recibe una instrucción, usa una HTTPRoute búsqueda para seleccionar un grupo de inferencia según el identificador del modelo. Los grupos tienen un tamaño inicial, pero se pueden configurar para que se ajusten automáticamente.
  • Conjuntos de réplicas de modelos: Una réplica de modelo es una copia de un servidor de inferencia que se implementa en una o más GPU o TPU. Una réplica de modelo puede ser de un solo nodo o de varios nodos. Un conjunto de réplicas es un grupo uniforme de réplicas de modelos que está frente a un balanceador de cargas. Si el conjunto de réplicas es de varios nodos, las GPU se conectan entre sí a través de una red de VPC de RDMA de backend. La red proporciona redes de baja latencia y sin pérdida entre GPU encarriladas.

Flujo de solicitud

El sistema enruta las solicitudes de inferencia de la siguiente manera:

  1. Un usuario final envía una solicitud a la API de OpenAI al extremo de Private Service Connect. Esta solicitud contiene lo siguiente:
    • La instrucción
    • El nombre del modelo, que debe coincidir con el nombre del modelo de uno de los servidores de inferencia alojados
  2. El extremo de Private Service Connect reenvía la solicitud a la versión regional interna del balanceador de cargas de aplicaciones de la puerta de enlace de inferencia.
  3. La puerta de enlace extrae el nombre del modelo del cuerpo de la solicitud y lo inserta en el encabezado de la solicitud mediante el enrutamiento basado en el cuerpo .
  4. La puerta de enlace reenvía la solicitud al sistema de administración de API para los servicios de administración de API que se necesitan.
  5. La puerta de enlace envía la instrucción a Model Armor para que la analice.
    • Si la instrucción contiene información sensible que no se puede redactar, se bloquea y Model Armor muestra una respuesta para indicar que se encontró una violación de política.
    • Si la instrucción contiene información sensible que se puede redactar o si no tiene ningún problema, Model Armor redacta cualquier información sensible y reenvía la instrucción.
  6. La puerta de enlace consulta HTTPRoute para obtener una lista de grupos de inferencia que coincidan con el modelo de la solicitud. De esta lista, la puerta de enlace elige una según una prioridad.
  7. La puerta de enlace consulta la caché de prefijos y la carga actual de todas las réplicas del grupo y, luego, usa esa información para elegir una réplica.
  8. La réplica procesa la solicitud y la envía de vuelta a la puerta de enlace.
  9. La puerta de enlace envía la respuesta a Model Armor para su aprobación o rechazo.
  10. La puerta de enlace envía la respuesta de vuelta al extremo de Private Service Connect y al usuario final.

En el siguiente diagrama, se muestra una vista de enrutamiento de una implementación de muestra.

Flujo de instrucciones para muestrear conjuntos de réplicas.

En este ejemplo, las instrucciones se controlan según el modelo que selecciona el usuario:

  • Llama: El sistema balancea la carga de estas instrucciones en una proporción de 90/10 entre dos conjuntos de réplicas que alojan el modelo Llama. Estos dos conjuntos de réplicas no tienen que alojarse de la misma manera. Por ejemplo, un conjunto de réplicas podría alojarse en Vertex AI y el otro en GKE.
  • LoRA-1-gemma o LoRA-2-gemma: El sistema envía todas las instrucciones al mismo conjunto de réplicas, que puede controlar ambos modelos.

En todos los casos, la puerta de enlace usa una combinación de coincidencia de prefijos y carga mínima para elegir una réplica en el grupo pertinente.

Productos usados

En esta arquitectura de referencia, se usan los siguientes Google Cloud productos:

  • Google Kubernetes Engine (GKE): Un servicio de Kubernetes que puedes usar para implementar y operar aplicaciones en contenedores a gran escala con la infraestructura de Google.
  • Puerta de enlace de inferencia de GKE: Una extensión de la puerta de enlace de Google Kubernetes Engine que proporciona enrutamiento y balanceo de cargas optimizados para entregar cargas de trabajo de IA generativa. Simplifica la implementación, la administración y la observabilidad de las cargas de trabajo de inferencia de IA.
  • Nube privada virtual (VPC): Un sistema virtual que proporciona funcionalidad de red global y escalable para tus Google Cloud cargas de trabajo. VPC incluye el intercambio de tráfico entre redes de VPC, Private Service Connect, el acceso privado a servicios y la VPC compartida.
  • Private Service Connect: Una función que permite a los consumidores acceder a servicios administrados de forma privada desde su red de VPC.
  • Cloud Run: Una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
  • Apigee: Una herramienta de administración de API que te brinda un control detallado sobre cómo se accede a tus APIs y cómo se usan. Proporciona seguridad, límite de frecuencia, aplicación de cuotas y estadísticas.
  • Model Armor: Un servicio que proporciona protección para tus recursos de IA generativa y de agentes contra la inyección de instrucciones, las filtraciones de datos sensibles y el contenido dañino.

Alternativas de diseño

En esta sección, se describen alternativas a algunas de las suposiciones básicas de esta arquitectura.

Límites funcionales de IA

Te recomendamos que uses Model Armor para los límites funcionales de IA. Para centralizar la administración, te recomendamos que lo llames directamente desde el balanceador de cargas, como en esta arquitectura. También puedes implementar Model Armor de estas formas alternativas:

  • Usa una política de administración de API para llamar a Model Armor.
  • Implementa Model Armor solo en la réplica.

Si implementas límites funcionales de IA que no sean en el extremo del modelo, puedes desactivar Model Armor en el balanceador de cargas de frontend si no lo necesitas. Si no quieres usar Model Armor, puedes usar extensiones de tráfico para implementar otras ofertas de límites funcionales, como los límites funcionales de NVIDIA NeMo.

Administración de API

La arquitectura de este documento usa Apigee para la administración de API, que se implementa con una extensión de servicio del balanceador de cargas. Si Apigee no satisface tus necesidades, puedes usar Service Extensions para implementar un servicio de administración de API diferente.

Si la implementación de la administración de API con Service Extensions no satisface tus necesidades, es posible que debas implementar una red orientada al cliente y una red orientada a la API. En este caso, el servicio de administración de API actúa como un puente entre las dos redes. Para obtener información sobre cómo implementar esto para Apigee, consulta las opciones de red de Apigee.

Conéctate a otras redes

La arquitectura de este documento usa una sola red de VPC de consumidor. Sin embargo, puedes compartir el extremo de Private Service Connect con muchas otras redes mediante el uso de una red de VPC de acceso a servicios en una implementación de Red Multinube.

Consideraciones del diseño

Cuando compiles la arquitectura para tu carga de trabajo, ten en cuenta las prácticas recomendadas y las recomendaciones del Google Cloud Well-Architected Framework.

Security, privacy, and compliance

Para agregar protección contra ataques de denegación de servicio distribuido (DSD), funcionalidad de firewall de aplicación web (WAF) y la inspección de direcciones IP a tu implementación, agrega Google Cloud Armor a tu balanceador de cargas de aplicaciones interno regional de frontend.

Confiabilidad

Para protegerte de las fallas regionales, replica tu implementación en una segunda región con el Google Cloud arquetipo de implementación multirregional.

Optimización de costos

Para obtener recomendaciones de optimización de costos de GKE, consulta Prácticas recomendadas para ejecutar aplicaciones de Kubernetes con optimización de costos en GKE.

Eficiencia operativa

Supervisa el rendimiento de las solicitudes de inferencia de la puerta de enlace de inferencia con el panel de la puerta de enlace de inferencia. El panel expone errores y métricas como la tasa de solicitudes, la latencia y la saturación. Usa los resultados del panel para optimizar tu implementación.

Optimización del rendimiento

Sigue las recomendaciones que se indican en la Descripción general de las prácticas recomendadas de inferencia en GKE.

Deployment

Para implementar una implementación de muestra de esta arquitectura, usa el ejemplo de muestra de código de Herramientas de redes para la entrega de modelos de inferencia de IA que está disponible en GitHub.

¿Qué sigue?

Colaboradores

Autor: Victor Moreno | Gerente de producto, Herramientas de redes de Cloud

Otros colaboradores: