LLM-Inferenzen in Cloud Run mit Hugging Face TGI ausführen

Das folgende Beispiel zeigt, wie Sie einen Backend-Dienst ausführen, in dem das Hugging Face TGI-Toolkit (Text Generation Inference) mit Llama 3 verwendet wird. Hugging Face TGI ist ein offenes Large Language Model (LLM), das in einem Cloud Run-Dienst mit aktivierten GPUs bereitgestellt und bereitgestellt werden kann.

Das vollständige Beispiel finden Sie unter Llama 3.1 8B mit TGI-DLC in Cloud Run bereitstellen.