Cloud TPU-Inferenz
Der Begriff der Bereitstellung bezieht sich auf die Bereitstellung eines trainierten Modells für maschinelles Lernen in einer Produktionsumgebung, in der es für die Inferenz verwendet werden kann. Die Inferenz wird auf TPU v5e und neueren Versionen unterstützt. Latenz-SLOs haben für die Bereitstellung Priorität.
In diesem Dokument wird die Bereitstellung eines Modells auf einer TPU mit einem einzelnen Host behandelt. TPU-Slices mit maximal 8 Chips haben eine TPU-VM oder einen ‑Host und werden als TPUs mit einem Host bezeichnet. Informationen zur Inferenz auf mehreren Hosts finden Sie unter Inferenz auf mehreren Hosts mit Pathways durchführen.
Jetzt starten
Sie benötigen ein Konto und ein Projekt in Google Cloud , um Cloud TPU zu verwenden. Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.
Prüfen Sie, ob Sie ein ausreichendes Kontingent für die Anzahl der TPU-Kerne haben, die Sie für die Inferenz verwenden möchten. Für TPU v5e werden separate Kontingente für Training und Bereitstellung verwendet. Die bereitstellungsspezifischen Kontingente für TPU v5e sind:
- On-Demand-Ressourcen vom Typ v5e:
TPUv5 lite pod cores for serving per project per zone
- Ressourcen auf Abruf vom Typ v5e:
Preemptible TPU v5 lite pod cores for serving per project per zone
Bei anderen TPU-Versionen wird für Trainings- und Bereitstellungsarbeitslasten dasselbe Kontingent verwendet. Weitere Informationen finden Sie unter Cloud TPU-Kontingente.
LLMs mit vLLM bereitstellen
vLLM ist eine Open-Source-Bibliothek, die für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs) entwickelt wurde. Cloud TPU wird über das tpu-inference
-Plug-in in vLLM eingebunden. Dieses Plug-in unterstützt JAX- und PyTorch-Modelle. Weitere Informationen finden Sie im tpu-inference
-GitHub-Repository.
Beispiele für die Bereitstellung eines Modells auf TPUs mit vLLM finden Sie unter:
- Erste Schritte mit vLLM TPU
- LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen
- Rezepte für die Bereitstellung von vLLM auf Trillium-TPUs (v6e)
Profilerstellung
Nachdem Sie die Inferenz eingerichtet haben, können Sie mit Profilern die Leistung und TPU-Auslastung analysieren. Weitere Informationen zur Profilerstellung finden Sie unter:
- Profilerstellung auf Cloud TPU
- TensorFlow-Profilerstellung
- PyTorch-Profilerstellung
- JAX-Profilerstellung