Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

在 Cloud TPU 上執行推論

服務是指將訓練好的機器學習模型部署至正式環境的程序，模型部署完成後即可用於推論。TPU v5e 和更新版本支援推論作業。服務的優先要務是延遲服務等級目標。

本文將說明如何在單一主機 TPU 上提供模型。晶片數少於或等於 8 個的 TPU 區塊只有一個 TPU VM 或主機，稱為「單主機」TPU。如要瞭解多主機推論，請參閱「使用 Pathways 執行多主機推論」。

開始使用

如要使用 Cloud TPU，您需要 Google Cloud 帳戶和專案。詳情請參閱「為 TPU 設定專案 Google Cloud 」。

請確認您有足夠的配額，可供推論作業使用 TPU 核心。TPU v5e 的訓練和服務配額是分開計算。在 Cloud TPU API 中，TPU v5e 的服務專屬配額如下：

隨選 v5e 資源：TPUv5 lite pod cores for serving per project per zone
先占 v5e 資源：Preemptible TPU v5 lite pod cores for serving per project per zone

如果是其他 TPU 版本，訓練和服務工作負載會使用相同的配額。詳情請參閱「Cloud TPU 配額」。

vLLM 是開放原始碼程式庫，專為大型語言模型 (LLM) 的快速推論和服務而設計。Cloud TPU 會使用 tpu-inference 外掛程式與 vLLM 整合，支援 JAX 和 PyTorch 模型。詳情請參閱 tpu-inference GitHub 存放區。

如需使用 vLLM 在 TPU 上提供模型的範例，請參閱下列內容：

設定推論後，您可以使用分析器分析效能和 TPU 使用率。如要進一步瞭解剖析功能，請參閱：