使用 Hugging Face TGI 在 Cloud Run 上运行 LLM 推理

以下示例展示了如何运行使用 Llama 3 的 Hugging Face 文本生成推理 (TGI) 工具包的后端服务。Hugging Face TGI 是一种开放式大语言模型 (LLM),可在启用 GPU 的 Cloud Run 服务上部署和应用。

如需查看完整示例,请参阅在 Cloud Run 上使用 TGI DLC 部署 Llama 3.1 8B