vLLM TPU es un framework de servicio altamente eficiente para modelos de lenguaje extenso (LLM) optimizado para el hardware de TPU de Cloud. Se basa en tpu-inference, un nuevo complemento de hardware expresivo y potente que unifica JAX y PyTorch en una sola ruta de reducción.
Consulta más información sobre este framework en la entrada de blog sobre la TPU de vLLM.
vLLM TPU está disponible en Model Garden mediante la implementación con un solo clic y el cuaderno.
Empezar a usar Model Garden
El contenedor de servicio de TPU de vLLM está integrado en Model Garden. Puedes acceder a esta solución de publicación con una implementación de un solo clic y ejemplos de cuadernos de Colab Enterprise para varios modelos.
Usar el despliegue con un solo clic
Puedes desplegar un endpoint de Vertex AI personalizado con vLLM TPU a través de la tarjeta de modelo de los siguientes modelos:
- google/gemma-3-27b-it
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen3-32B
- Qwen/Qwen3-8B
- Qwen/Qwen3-4B
- Qwen/Qwen3-4B-Instruct-2507
Pasos:
Ve a la página de la tarjeta del modelo (por ejemplo, google/gemma-3-27b-it) y haz clic en Implementar modelo para abrir el panel de implementación.
En ID de recurso, seleccione la variante del modelo que quiera implementar.
En la variante del modelo que quieras implementar, haz clic en Editar configuración y selecciona la opción de TPU de vLLM en Especificaciones de la máquina para la implementación.
Haz clic en Implementar en la parte inferior del panel para iniciar el proceso de implementación. Recibirás una notificación por correo cuando el endpoint esté listo.
Usar el cuaderno de Colab Enterprise
Para disfrutar de flexibilidad y personalización, puedes usar ejemplos de cuadernos de Colab Enterprise para desplegar un endpoint de Vertex AI con vLLM TPU mediante el SDK de Vertex AI para Python.
Abre el cuaderno de TPU de vLLM en Colab Enterprise.
Ejecuta el cuaderno para desplegar un modelo con vLLM TPU y enviar solicitudes de predicción al endpoint.
Solicitar cuota de TPU de Cloud
En Model Garden, la cuota predeterminada es de 16 chips de TPU v6e de Cloud en la región europe-west4. Estas cuotas se aplican a los despliegues con un solo clic y a los despliegues de cuadernos de Colab Enterprise. Si tienes una cuota predeterminada de 0 o quieres solicitar más cuota, consulta Solicitar un ajuste de cuota.