vLLM TPU es un framework de entrega altamente eficiente para modelos de lenguaje grandes (LLM) que está optimizado para el hardware de Cloud TPU. Está potenciado por tpu-inference, un nuevo complemento de hardware expresivo y potente que unifica JAX y PyTorch en una sola ruta de reducción.
Obtén más información sobre este framework en la entrada de blog sobre la TPU de vLLM.
vLLM TPU está disponible en Model Garden a través de la implementación con un clic y el notebook.
Primeros pasos con Model Garden
El contenedor de entrega de vLLM TPU está integrado en Model Garden. Puedes acceder a esta solución de entrega a través de la implementación con un clic y los ejemplos de notebooks de Colab Enterprise para una variedad de modelos.
Usa la implementación con un solo clic
Puedes implementar un extremo personalizado de Vertex AI con vLLM TPU a través de la tarjeta de modelo para los siguientes modelos:
- google/gemma-3-27b-it
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen3-32B
- Qwen/Qwen3-8B
- Qwen/Qwen3-4B
- Qwen/Qwen3-4B-Instruct-2507
Pasos:
Navega a la página de la tarjeta de modelo (por ejemplo, google/gemma-3-27b-it) y haz clic en Implementar modelo para abrir el panel de implementación.
Selecciona la variante del modelo que deseas implementar en ID de recurso.
Para la variante del modelo que deseas implementar, haz clic en Editar configuración y selecciona la opción de TPU de vLLM en Especificaciones de la máquina para la implementación.
Haz clic en Implementar en la parte inferior del panel para comenzar el proceso de implementación. Recibirás una notificación por correo electrónico cuando el extremo esté listo.
Usa el notebook de Colab Enterprise
Si deseas obtener flexibilidad y personalización, puedes usar ejemplos de notebook de Colab Enterprise para implementar un extremo de Vertex AI con vLLM TPU a través del SDK de Vertex AI para Python.
Abre el notebook de vLLM TPU en Colab Enterprise.
Ejecuta el notebook para implementar un modelo con la TPU de vLLM y envía solicitudes de predicción al extremo.
Solicita la cuota de Cloud TPU
En Model Garden, la cuota predeterminada es de 16 chips de Cloud TPU v6e en la región europe-west4. Estas cuotas se aplican a las implementaciones con un clic y a las implementaciones de notebooks de Colab Enterprise. Si tienes una cuota predeterminada de 0 o deseas solicitar más cuota, consulta Solicita un ajuste de cuota.