Cloud TPU-Ressourcen planen

Auf dieser Seite wird beschrieben, wie Sie die Verwendung von Tensor Processing Unit (TPUs) planen.

Eine Option für die Aufnahme auswählen

Nutzungsoptionen beziehen sich auf die Möglichkeiten, Rechenressourcen zu beziehen und zu nutzen. Sie können Cloud TPU-VM-Kapazität basierend auf Ihren Anforderungen in Bezug auf Geschwindigkeit, Dauer, Kosten und Toleranz für das Unterbrechen von Vorgängen anfordern. Es gibt folgende Optionen:

  • On-Demand:Standardmäßige Pay-as-you-go-Instanzen.
  • Spot-VMs:Kostengünstigere, vorzeitig beendbare Instanzen. Verwendet Kontingent auf Abruf.
  • Flex-Start-VMs:Reservieren Sie Kapazität nach Bedarf für bis zu 7 Tage, ohne langfristige Reservierungen oder eine komplexe Kontingentverwaltung.
  • Reservierungen:Sie können Kapazität für einen bestimmten Zeitraum (bis zu 90 Tage oder länger als ein Jahr) reservieren und so die Verfügbarkeit garantieren. Verwendet On-Demand-Kontingent.

Für TPU v6e und spätere Generationen können Sie auch GKE mit TPU Cluster Director verwenden. Diese Funktion ist über eine Reservierung im Modus „Alle Kapazitäten“ verfügbar. Sie haben vollen Zugriff auf Ihre reservierte Kapazität und vollständigen Einblick in das Hardwarelayout, die Nutzung und den Zustand der TPU. Weitere Informationen finden Sie unter Übersicht über den Modus „Alle Kapazitäten“.

In der folgenden Tabelle werden die TPU-Verbrauchsoptionen anhand ihrer Funktionsweise, ihrer idealen Anwendungsfälle, der unterstützten TPU-Versionen und ‑Zonen sowie der erforderlichen Kontingenttypen verglichen.

Nutzungsoption Funktionsweise Geeignete Anwendungsfälle Unterstützte TPU-Versionen und ‑Zonen Kontingenttyp für Cloud TPU API
Vorausschauende Reservierungen für ein Jahr oder länger

Sie fordern TPU-Ressourcen im Voraus für ein Jahr oder länger an. Diese Ressourcen sind während dieses Zeitraums ausschließlich für Sie reserviert.

Reservierungen bieten das höchste Maß an Sicherheit für Kapazität und sind kostengünstiger als On-Demand-Ressourcen.

Für vorausschauende TPU-Reservierungen gilt ein Rabatt für zugesicherte Nutzung (Committed Use Discount, CUD). CUDs sind Preisnachlässe für Nutzer, die einen Vertrag für zugesicherte Nutzung abschließen. Weitere Informationen finden Sie unter Vorausschauende Reservierungen für ein Jahr oder länger.

Vorausschauende Reservierungen für ein Jahr oder länger sind ideal für Trainingsjobs mit langer Laufzeit und für Inferenzarbeitslasten. Alle TPU-Versionen: Siehe TPU-Regionen und ‑Zonen. On-Demand-Kontingent
Vorausschauende Reservierungen für bis zu 90 Tage (Kalendermodus) (Vorschau)

Sie fordern TPU-Ressourcen für einen bestimmten Beginn und eine Dauer zwischen 1 und 90 Tagen an. Diese Ressourcen sind während dieses Zeitraums ausschließlich für Sie reserviert. Weitere Informationen finden Sie unter Vorausschauende Reservierungen für bis zu 90 Tage (im Kalendermodus).

Reservierungen bieten das höchste Maß an Sicherheit für Kapazität und sind kostengünstiger als On-Demand-Ressourcen.

Vorausschauende Reservierungen im Kalendermodus eignen sich gut für Trainings- und Testarbeitslasten, die genaue Startzeiten erfordern und eine konkrete Dauer haben.

TPU7x (Ironwood) (Vorabversion) für Training und Bereitstellung: us-central1-c

v6e (Trillium) für Training und Bereitstellung: asia-northeast1‑b, us-east5‑a

v5p für Training und Bereitstellung: us-east5‑a

v5e für Training: us-west4‑a

v5e für Bereitstellung: us-central1‑a

Kein Kontingent erforderlich
On demand

Sie fordern TPU-Ressourcen zur sofortigen Nutzung an, und zwar so lange, wie Sie sie benötigen.

On-Demand bietet erhebliche Flexibilität. Die Bereitstellung von On-Demand-Ressourcen wird nicht vorzeitig beendet, aber es gibt keine Garantie dafür, dass genügend TPU-Ressourcen verfügbar sind, um Ihre Anfrage zu erfüllen. On-Demand ist die Standardoption, wenn Sie TPU-Ressourcen erstellen. Weitere Informationen zum Erstellen und Verwenden von On-Demand-TPUs finden Sie unter TPU-VMs erstellen.

On-Demand-Instanzen eignen sich gut für dringende Jobs und Arbeitslasten, bei denen das Ende flexibel sein soll. Alle TPU-Versionen: Siehe TPU-Regionen und ‑Zonen. On-Demand-Kontingent
Flex-Start (Vorschau)

Sie können TPU-Ressourcen für einen bestimmten Zeitraum von bis zu sieben Tagen anfordern, ohne Kapazität im Voraus reservieren zu müssen.

TPU-Flex-Start-VMs werden aus einem dedizierten Kapazitätspool bereitgestellt. Die Verfügbarkeit dieser Ressourcen ist daher höher als bei On-Demand-VMs. Weitere Informationen finden Sie unter TPU Flex-Start-VMs anfordern.

Weitere Informationen zur Verwendung von TPU-Flex-Start-VMs mit Google Kubernetes Engine (GKE) finden Sie unter GPU-, TPU- und H4D-Nutzung mit dem Bereitstellungsmodus „Flex-Start“.

Flex-Start ist ideal für Experimente, kleinere Tests, die dynamische Bereitstellung von TPUs für Inferenzarbeitslasten, die Feinabstimmung von Modellen und Arbeitslastausführungen, die weniger als sieben Tage dauern.

TPU7x (Ironwood) (Vorschau): us-central1-c (nur mit GKE)

v6e (Trillium): asia-northeast1‑b, us-east5‑a

v5p: us-east5‑a

v5e us-west4‑a

Kontingent auf Abruf
Spot

Sie fordern TPU-Ressourcen an, deren Bereitstellung vorzeitig beendet werden kann.

Spot-VMs sind deutlich günstiger als On-Demand-Ressourcen. Spot-VMs sind oft einfacher zu erhalten als On-Demand-Ressourcen, ihre Bereitstellung kann aber jederzeit vorzeitig beendet werden. Die Laufzeit ist nicht begrenzt. Weitere Informationen zu TPU-Spot-VMs finden Sie unter TPU-Spot-VMs verwalten.

Spot eignet sich gut für die Planung von Arbeitslasten mit niedrigerer Priorität wie Modellvortraining, Modellfeinabstimmung und Simulationsjobs, die Verfügbarkeitsunterbrechungen tolerieren können. Alle TPU-Versionen: Siehe TPU-Regionen und ‑Zonen. Kontingent auf Abruf

TPU-Kontingent anfordern

Wenn Sie TPU-VMs verwenden möchten, benötigen Sie unabhängig von der Nutzungsoption entweder On-Demand-Kontingent oder Kontingent auf Abruf für Cloud TPU-Kerne oder ‑Chips. Prüfen Sie, ob Sie genügend Kontingent für die von Ihnen ausgewählte Option, TPU-Version, Größe und Zone haben. Kontingente sind für jede TPU-Version spezifisch und unterscheiden sich für die On-Demand-Nutzung und die Nutzung auf Abruf. Für einige TPU-Versionen gibt es Standardkontingente, für andere müssen Sie ein Kontingent anfordern. Weitere Informationen finden Sie unter Cloud TPU-Kontingente.

Wenn Sie TPUs mit Google Kubernetes Engine (GKE) verwenden, benötigen Sie das Compute Engine API-Kontingent anstelle des Standardkontingents für die TPU API. Weitere Informationen zu TPU-Kontingenten in GKE finden Sie unter Ausreichendes TPU-Kontingent sicherstellen.

TPU-Version auswählen

Wählen Sie die TPU-Version aus, z. B. v5e, v5p, v6e oder TPU7x (Ironwood), je nach den Anforderungen Ihres Modells für Training oder Inferenz. Weitere Informationen finden Sie unter TPU-Versionen.

Nächste Schritte