使用 Hugging Face TGI 在 Cloud Run 上執行 LLM 推論

以下範例說明如何執行後端服務,使用 Llama 3 執行 Hugging Face Text Generation Inference (TGI) 工具包。Hugging Face TGI 是開放式大型語言模型 (LLM),可部署及提供給已啟用 GPU 的 Cloud Run 服務。

如需完整範例,請參閱「在 Cloud Run 上使用 TGI DLC 部署 Llama 3.1 8B」。