Elige una opción de servicio de modelos abiertos

Vertex AI ofrece varias formas de entregar modelos de lenguaje grandes abiertos, incluidos Llama, DeepSeek, Mistral y Qwen, en Google Cloud. En este documento, se proporciona una descripción general de las ofertas de Vertex AI para la entrega de modelos abiertos y se te ayuda a elegir la opción adecuada para tu caso de uso.

Opciones de publicación

Vertex AI ofrece las siguientes opciones para entregar modelos abiertos. Cada una de estas opciones proporciona alta disponibilidad y, de forma predeterminada, incluye las prácticas recomendadas de seguridad: Google Cloud

Cuándo usar MaaS

Considera usar el MaaS en las siguientes situaciones:

  • Desarrollo y creación de prototipos rápidos: MaaS te ayuda a integrar rápidamente las capacidades de los LLM en las aplicaciones. Esto es especialmente útil para la exploración inicial, el prototipado rápido y cuando un tiempo de comercialización rápido es un objetivo clave.
  • Minimización de la sobrecarga operativa: Elige MaaS cuando tu equipo quiera enfocarse en la lógica de la aplicación en lugar de la administración de la infraestructura. Google se encarga de todo el aprovisionamiento, el escalamiento y el mantenimiento de las GPU y TPU, lo que beneficia a los equipos que se enfocan en el desarrollo de aplicaciones en lugar de las MLOps o DevOps.
  • Tráfico variable: El modelo de pago por uso admite cargas de trabajo o aplicaciones experimentales con patrones de tráfico impredecibles y repentinos.
  • Uso listo para usar: Usa una API administrada para las aplicaciones que necesitan un rendimiento coherente, pero no requieren una personalización profunda del modelo subyacente o la pila de entrega.
  • Seguridad y cumplimiento: MaaS permite que las empresas usen las funciones de seguridad y cumplimiento integradas de nivel empresarial de Google Cloud.
  • Uso de modelos estándar: Usa MaaS cuando un modelo fundamental estándar y no personalizado satisfaga tus necesidades.

Cuándo usar modelos implementados por el usuario en Model Garden

Las opciones de implementación automática incluyen la implementación desde Model Garden con contenedores compilados previamente o personalizados. Considera la implementación por tu cuenta en estas situaciones clave:

  • Pesos personalizados y modelos ajustados: La autoinstalación es la mejor opción cuando tu aplicación requiere el uso de pesos personalizados o una versión ajustada de un modelo, ya que ofrece mayor flexibilidad para implementar modelos adaptados a tus necesidades específicas. También puedes compilar e implementar tus propios contenedores de servicio personalizados. Por ejemplo, usa esta opción cuando un modelo requiera una lógica de procesamiento previo o posterior única.
  • Cargas de trabajo predecibles y de gran volumen: La implementación por cuenta propia es una opción estratégica y rentable para las aplicaciones de producción con tráfico predecible y de gran volumen. Si bien requiere una mayor inversión inicial en ingeniería, puede generar un costo total de propiedad (TCO) más bajo durante la vida útil de la aplicación debido a los costos por token optimizados a gran escala.
  • Control detallado de la infraestructura: Usa la implementación propia cuando necesites ajustar el rendimiento y el presupuesto eligiendo configuraciones de hardware específicas. Esto incluye seleccionar tipos de máquinas, GPUs (por ejemplo, NVIDIA L4 o H100) o TPUs exactos, y frameworks de servicio optimizados.
  • Seguridad y cumplimiento estrictos: Este enfoque admite aplicaciones que deben cumplir con políticas específicas de residencia de datos o regulaciones estrictas que prohíben el uso de un servicio administrado multiusuario. Te permite implementar modelos de forma segura en tu propio proyecto Google Cloud y red de nube privada virtual, lo que te brinda un control completo sobre la ruta de datos.
  • Control detallado sobre la ubicación: Los extremos dedicados te permiten implementar en cualquier acelerador de Compute Engine en Google Cloud en todas las regiones.

Cuándo usar contenedores compilados previamente

Considera usar contenedores compilados previamente de Vertex AI en los siguientes casos:

  • Rendimiento optimizado: Vertex AI optimiza y personaliza los contenedores prediseñados para frameworks como vLLM para mejorar el rendimiento, la confiabilidad y la integración perfecta en Google Cloud.
  • Facilidad de uso: Entrega modelos con frameworks de entrega populares, como vLLM, Hex-LLM, SGLang, TGI o TensorRT-LLM, sin necesidad de compilar ni mantener tus propias imágenes de contenedor.

Cuándo usar contenedores de vLLM personalizados

Considera compilar y usar tu propio contenedor personalizado en las siguientes situaciones:

  • Máxima flexibilidad: Cuando las opciones de entrega existentes y los contenedores prediseñados no son suficientes para tus necesidades y requieres un control total sobre la imagen del contenedor, incluidas las dependencias y las configuraciones.
  • Lógica de entrega personalizada: Cuando tu modelo requiere pasos únicos de procesamiento previo o posterior que no son compatibles con los contenedores compilados previamente.

¿Qué sigue?