LLM-Inferenzen in Cloud Run mit Hugging Face TGI ausführen

Das folgende Beispiel zeigt, wie Sie einen Backend-Dienst ausführen, in dem das Hugging Face TGI-Toolkit (Text Generation Inference) mit Llama 3 verwendet wird. Hugging Face TGI ist ein offenes Large Language Model (LLM), das in einem Cloud Run-Dienst mit aktivierten GPUs bereitgestellt und bereitgestellt werden kann.

Das vollständige Beispiel finden Sie unter Llama 3.1 8B mit TGI-DLC in Cloud Run bereitstellen.

Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.

Zuletzt aktualisiert: 2026-03-15 (UTC).