推論工作負載的 TPU 集合排程
Trillium (v6e) 包含「集合排程」功能,可讓您將一組 TPU 節點 (單一或多個主機) 分組,用於提供相同模型的副本。這項功能適用於 Cloud TPU 和 Google Kubernetes Engine (GKE) 設定。
本文說明如何搭配 Cloud TPU API 使用集合排程。如要進一步瞭解如何搭配 GKE 使用集合排程,請參閱 GKE 說明文件。
為推論工作負載建立集合,可限制並簡化推論工作負載作業的中斷情形。Google Cloud 這項功能適用於需要高可用性的推論工作負載。 Google Cloud 可確保集合具有高可用性,以便管理傳入流量。集合中的部分切片一律可用於處理傳入流量。
集合中的每個 TPU 節點都會有相同的加速器類型和拓撲。
透過 Cloud TPU API 建立集合
使用 Cloud TPU API 要求排入佇列的資源時,請使用 --workload-type=AVAILABILITY-OPTIMIZED 旗標建立集合。這個標記會向 Cloud TPU 基礎架構指出,這項資源應做為以可用性為重的工作負載使用。
下列指令會使用 Cloud TPU API 佈建集合:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
--node-count 旗標會指定佇列資源中所需的切片數量。這會建立 TPU 配量集合。
選用:--node-prefix 旗標會指定切片名稱的前置字串。