vLLM TPU ist ein hocheffizientes Bereitstellungs-Framework für Large Language Models (LLM), das für Cloud TPU-Hardware optimiert ist. Es basiert auf tpu-inference, einem ausdrucksstarken und leistungsstarken neuen Hardware-Plug-in, das JAX und Pytorch unter einem einzigen Lowering-Pfad vereint.
Weitere Informationen zu diesem Framework finden Sie im Blogpost zu vLLM TPU.
vLLM TPU ist in Model Garden per Bereitstellung mit einem Klick und Notebook verfügbar.
Erste Schritte mit Model Garden
Der vLLM-TPU-Bereitstellungscontainer ist in Model Garden integriert. Sie können auf diese Bereitstellungslösung über die Ein-Klick-Bereitstellung und die Colab Enterprise-Notebook-Beispiele für eine Vielzahl von Modellen zugreifen.
Bereitstellung mit nur einem Klick verwenden
Sie können einen benutzerdefinierten Vertex AI-Endpunkt mit vLLM TPU über die Modellkarte für die folgenden Modelle bereitstellen:
- google/gemma-3-27b-it
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-3.1-8B-Instruct
- Qwen/Qwen3-32B
- Qwen/Qwen3-8B
- Qwen/Qwen3-4B
- Qwen/Qwen3-4B-Instruct-2507
Schritte:
Rufen Sie die Seite „Modellkarte“ auf (z. B. google/gemma-3-27b-it) und klicken Sie auf Modell bereitstellen, um das Bereitstellungsfeld zu öffnen.
Wählen Sie unter Ressourcen-ID die Modellvariante aus, die Sie bereitstellen möchten.
Klicken Sie für die Modellvariante, die Sie bereitstellen möchten, auf Einstellungen bearbeiten und wählen Sie unter Maschinenspezifikation die vLLM-TPU-Option für die Bereitstellung aus.
Klicken Sie unten im Bereich auf Bereitstellen, um den Bereitstellungsprozess zu starten. Sie erhalten eine E‑Mail-Benachrichtigung, wenn der Endpunkt bereit ist.
Colab Enterprise-Notebook verwenden
Für mehr Flexibilität und Anpassungsmöglichkeiten können Sie Colab Enterprise-Notebook-Beispiele verwenden, um einen Vertex AI-Endpunkt mit vLLM TPU mithilfe des Vertex AI SDK für Python bereitzustellen.
Öffnen Sie das vLLM-TPU-Notebook in Colab Enterprise.
Führen Sie das Notebook aus, um ein Modell mit vLLM TPU bereitzustellen und Vorhersageanfragen an den Endpunkt zu senden.
Cloud TPU-Kontingent anfordern
Im Model Garden beträgt das Standardkontingent 16 Cloud TPU v6e-Chips in der Region „europe-west4“. Dieses Kontingent gilt für Bereitstellungen mit nur einem Klick und für Colab Enterprise-Notebook-Bereitstellungen. Wenn Sie ein Standardkontingent von 0 haben oder ein höheres Kontingent anfordern möchten, lesen Sie den Abschnitt Kontingentanpassung anfordern.