Diese Seite wurde von der Cloud Translation API übersetzt.

Cloud TPU-Inferenz

Der Begriff der Bereitstellung bezieht sich auf die Bereitstellung eines trainierten Modells für maschinelles Lernen in einer Produktionsumgebung, in der es für die Inferenz verwendet werden kann. Die Inferenz wird auf TPU v5e und neueren Versionen unterstützt. Latenz-SLOs haben für die Bereitstellung Priorität.

In diesem Dokument wird die Bereitstellung eines Modells auf einer TPU mit einem einzelnen Host behandelt. TPU-Slices mit maximal 8 Chips haben eine TPU-VM oder einen ‑Host und werden als TPUs mit einem Host bezeichnet. Informationen zur Inferenz auf mehreren Hosts finden Sie unter Inferenz auf mehreren Hosts mit Pathways durchführen.

Jetzt starten

Sie benötigen ein Konto und ein Projekt in Google Cloud , um Cloud TPU zu verwenden. Weitere Informationen finden Sie unter Cloud TPU-Umgebung einrichten.

Prüfen Sie, ob Sie ein ausreichendes Kontingent für die Anzahl der TPU-Kerne haben, die Sie für die Inferenz verwenden möchten. Für TPU v5e werden separate Kontingente für Training und Bereitstellung verwendet. Die bereitstellungsspezifischen Kontingente für TPU v5e sind:

On-Demand-Ressourcen vom Typ v5e: TPUv5 lite pod cores for serving per project per zone
Ressourcen auf Abruf vom Typ v5e: Preemptible TPU v5 lite pod cores for serving per project per zone

Bei anderen TPU-Versionen wird für Trainings- und Bereitstellungsarbeitslasten dasselbe Kontingent verwendet. Weitere Informationen finden Sie unter Cloud TPU-Kontingente.

LLMs mit vLLM bereitstellen

vLLM ist eine Open-Source-Bibliothek, die für schnelle Inferenz und Bereitstellung von Large Language Models (LLMs) entwickelt wurde. Cloud TPU wird über das tpu-inference-Plug-in in vLLM eingebunden. Dieses Plug-in unterstützt JAX- und PyTorch-Modelle. Weitere Informationen finden Sie im tpu-inference-GitHub-Repository.

Beispiele für die Bereitstellung eines Modells auf TPUs mit vLLM finden Sie unter:

Profilerstellung

Nachdem Sie die Inferenz eingerichtet haben, können Sie mit Profilern die Leistung und TPU-Auslastung analysieren. Weitere Informationen zur Profilerstellung finden Sie unter: