Vertex AI ofrece varias formas de servir modelos de lenguaje extensos abiertos, como Llama, DeepSeek, Mistral y Qwen, en Google Cloud. En este documento se ofrece una descripción general de las ofertas de Vertex AI para el servicio de modelos abiertos y se le ayuda a elegir la opción adecuada para su caso práctico.
Opciones de publicación
Vertex AI ofrece las siguientes opciones para servir modelos abiertos. Cada una de estas opciones ofrece una alta disponibilidad e incluye de forma predeterminada las prácticas recomendadas de seguridad: Google Cloud
- Modelo como servicio (MaaS): ofrece modelos abiertos mediante APIs gestionadas sin servidor.
- Modelos autodesplegados en Model Garden: despliega modelos abiertos de Model Garden con un solo clic o con pesos personalizados.
- Imágenes de contenedor precompiladas de Vertex AI: sirve modelos abiertos mediante contenedores precompilados para frameworks de servicio populares, como vLLM, Hex-LLM y TGI.
- Contenedor vLLM personalizado: te permite crear e implementar tu propio contenedor vLLM personalizado para disfrutar de una mayor flexibilidad.
Cuándo usar MaaS
Considera usar MaaS en estos casos:
- Desarrollo y creación de prototipos rápidos: MaaS te ayuda a integrar rápidamente las funciones de LLM en las aplicaciones. Esto resulta especialmente útil para la exploración inicial, la creación rápida de prototipos y cuando el tiempo de lanzamiento al mercado es un objetivo clave.
- Minimizar la sobrecarga operativa: elige MaaS si tu equipo quiere centrarse en la lógica de las aplicaciones en lugar de en la gestión de la infraestructura. Google se encarga de todo el aprovisionamiento, el escalado y el mantenimiento de las GPUs y las TPUs, lo que beneficia a los equipos centrados en el desarrollo de aplicaciones en lugar de en MLOps o DevOps.
- Tráfico variable: el modelo de pago por uso admite cargas de trabajo o aplicaciones experimentales con patrones de tráfico impredecibles y con picos.
- Uso preconfigurado: usa una API gestionada para aplicaciones que necesiten un rendimiento constante, pero que no requieran una personalización profunda del modelo subyacente o de la pila de servicio.
- Seguridad y cumplimiento: MaaS permite a las empresas usar las funciones de seguridad y cumplimiento de nivel empresarial integradas de Google Cloud.
- Uso del modelo estándar: usa MaaS cuando un modelo base estándar no personalizado se ajuste a tus necesidades.
Cuándo usar modelos implementados por el usuario en Model Garden
Entre las opciones de autodespliegue se incluye el despliegue desde Model Garden mediante contenedores precompilados o personalizados. Considera la posibilidad de implementar la solución por tu cuenta en estos casos:
- Pesos personalizados y modelos ajustados: el autodespliegue es la mejor opción cuando tu aplicación requiere usar pesos personalizados o una versión ajustada de un modelo, ya que ofrece una mayor flexibilidad para desplegar modelos adaptados a tus necesidades específicas. También puedes crear y desplegar tus propios contenedores de servicio personalizados. Por ejemplo, usa esta opción cuando un modelo requiera una lógica de preprocesamiento o posprocesamiento única.
- Cargas de trabajo predecibles y de gran volumen: el autodespliegue es una opción estratégica y rentable para las aplicaciones de producción con tráfico predecible y de gran volumen. Aunque requiere una mayor inversión inicial en ingeniería, puede reducir el coste total de propiedad (TCO) durante la vida útil de la aplicación gracias a la optimización de los costes por token a gran escala.
- Control granular sobre la infraestructura: usa la implementación automática cuando necesites ajustar el rendimiento y el presupuesto eligiendo configuraciones de hardware específicas. Esto incluye seleccionar tipos de máquinas, GPUs (por ejemplo, NVIDIA L4 o H100) o TPUs exactos, así como frameworks de servicio optimizados.
- Seguridad y cumplimiento estrictos: esta opción es adecuada para aplicaciones que deben cumplir políticas de residencia de datos específicas o normativas estrictas que prohíben el uso de un servicio gestionado multiinquilino. Te permite desplegar modelos de forma segura en tu propio Google Cloud proyecto y red de nube privada virtual, lo que te da un control total sobre la ruta de los datos.
- Control granular sobre la ubicación: los endpoints dedicados te permiten desplegar en cualquier acelerador de Compute Engine en Google Cloud en todas las regiones.
Cuándo usar contenedores prediseñados
Prueba a usar los contenedores precompilados de Vertex AI en los siguientes casos:
- Rendimiento optimizado: Vertex AI optimiza y personaliza los contenedores precompilados para frameworks como vLLM, lo que mejora el rendimiento y la fiabilidad, y permite una integración perfecta en Google Cloud.
- Facilidad de uso: sirve modelos con frameworks de servicio populares, como vLLM, Hex-LLM, SGLang, TGI o TensorRT-LLM, sin tener que crear ni mantener tus propias imágenes de contenedor.
Cuándo usar contenedores vLLM personalizados
Te recomendamos que crees y uses tu propio contenedor personalizado en los siguientes casos:
- Máxima flexibilidad: cuando las opciones de servicio y los contenedores precompilados no sean suficientes para tus necesidades y necesites tener un control total sobre la imagen del contenedor, incluidas las dependencias y las configuraciones.
- Lógica de servicio personalizada: cuando tu modelo requiere pasos de preprocesamiento o posprocesamiento únicos que no admiten los contenedores precompilados.
Siguientes pasos
- Usar modelos abiertos con Model as a Service (MaaS)
- Desplegar modelos abiertos desde Model Garden
- Implementar modelos abiertos con contenedores precompilados
- Implementar modelos abiertos con un contenedor vLLM personalizado