在 Cloud TPU 上執行推論

服務是指將訓練好的機器學習模型部署至正式環境的程序,模型部署完成後即可用於推論。TPU v5e 和更新版本支援推論作業。服務的優先要務是延遲服務等級目標。

本文將說明如何在單一主機 TPU 上提供模型。晶片數少於或等於 8 個的 TPU 區塊只有一個 TPU VM 或主機,稱為「單主機」TPU。如要瞭解多主機推論,請參閱「使用 Pathways 執行多主機推論」。

開始使用

如要使用 Cloud TPU,您需要 Google Cloud 帳戶和專案。詳情請參閱「為 TPU 設定專案 Google Cloud 」。

請確認您有足夠的配額,可供推論作業使用 TPU 核心。TPU v5e 的訓練和服務配額是分開計算。在 Cloud TPU API 中,TPU v5e 的服務專屬配額如下:

  • 隨選 v5e 資源TPUv5 lite pod cores for serving per project per zone
  • 先占 v5e 資源Preemptible TPU v5 lite pod cores for serving per project per zone

如果是其他 TPU 版本,訓練和服務工作負載會使用相同的配額。詳情請參閱「Cloud TPU 配額」。

透過 vLLM 提供大型語言模型

vLLM 是開放原始碼程式庫,專為大型語言模型 (LLM) 的快速推論和服務而設計。Cloud TPU 會使用 tpu-inference 外掛程式與 vLLM 整合,支援 JAX 和 PyTorch 模型。詳情請參閱 tpu-inference GitHub 存放區

如需使用 vLLM 在 TPU 上提供模型的範例,請參閱下列內容:

分析

設定推論後,您可以使用分析器分析效能和 TPU 使用率。如要進一步瞭解剖析功能,請參閱: