Cloud TPU 推論

服務是指將訓練好的機器學習模型部署至生產環境的程序,以便用於推論。TPU v5e 和更新版本支援推論作業。服務的優先考量是延遲服務等級目標。

本文說明如何在單一主機 TPU 上提供模型。晶片數少於或等於 8 個的 TPU 節點具有一個 TPU VM 或主機,稱為單一主機 TPU。如要瞭解多主機推論,請參閱「使用 Pathways 執行多主機推論」。

開始使用

如要使用 Cloud TPU,您需要 Google Cloud 帳戶和專案。詳情請參閱「設定 Cloud TPU 環境」一文。

請確認您有足夠的配額,可供推論使用計畫中的 TPU 核心數量。TPU v5e 的訓練和服務配額是分開計算。TPU v5e 的服務專用配額如下:

  • 隨選 v5e 資源TPUv5 lite pod cores for serving per project per zone
  • 先占 v5e 資源Preemptible TPU v5 lite pod cores for serving per project per zone

如果是其他 TPU 版本,訓練和服務工作負載會使用相同的配額。詳情請參閱 Cloud TPU 配額

透過 vLLM 提供 LLM

vLLM 是開放原始碼程式庫,專為大型語言模型 (LLM) 的快速推論和服務而設計。Cloud TPU 會使用 tpu-inference 外掛程式與 vLLM 整合,支援 JAX 和 PyTorch 模型。詳情請參閱 tpu-inference GitHub 存放區

如需使用 vLLM 在 TPU 上提供模型的範例,請參閱下列內容:

分析

設定推論後,您可以使用分析器分析效能和 TPU 使用率。如要進一步瞭解剖析功能,請參閱: