TPU-Sammlungen für Inferenz-Arbeitslasten planen

Trillium (v6e) enthält eine Funktion namens „Sammlungsplanung“, mit der Sie eine Reihe von TPU-Slices (Einzelhost- oder Multihost-Slices) gruppieren können, die für die Bereitstellung von Replikaten desselben Modells vorgesehen sind. Dieses Feature ist sowohl für Cloud TPU- als auch für GKE-Konfigurationen verfügbar.

In diesem Dokument geht es um die Verwendung der Planungsoption für Sammlungen mit der Cloud TPU API. Weitere Informationen zur Verwendung der Sammlungsplanung mit GKE finden Sie in der GKE-Dokumentation.

Wenn Sie für Ihre Inferenzarbeitslast eine Sammlung erstellen, begrenzt und optimiertGoogle Cloud die Unterbrechungen von Inferenzarbeitslastvorgängen. Das ist für jene Inferenzarbeitslasten nützlich, bei denen die Hochverfügbarkeit wichtig ist. Google Cloud sorgt dann für die Hochverfügbarkeit, damit die Sammlung eingehenden Traffic verwalten kann. Ein Teil der Slices in einer Sammlung ist immer verfügbar, um eingehenden Traffic zu verarbeiten.

Jeder TPU-Slice in einer Sammlung hat denselben Beschleunigertyp und dieselbe Topologie.

Sammlung über die Cloud TPU API erstellen

Wenn Sie über die Cloud TPU API eine in die Warteschlange gestellte Ressource anfragen, verwenden Sie das Flag --workload-type=AVAILABILITY-OPTIMIZED, um eine Sammlung zu erstellen. Dieses Flag weist die Cloud TPU-Infrastruktur darauf hin, dass die Sammlung für verfügbarkeitsorientierte Arbeitslasten verwendet werden soll.

Mit dem folgenden Befehl wird eine Sammlung mit der Cloud TPU API bereitgestellt:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

Das Flag --node-count gibt die Anzahl der Slices an, die Sie in Ihrer in die Warteschlange gestellte Ressource haben möchten. Dadurch wird eine Sammlung von TPU-Slices erstellt.

Optional: Mit dem Flag --node-prefix wird ein Präfix für die Slice-Namen angegeben.