Exécuter l'inférence LLM sur Cloud Run avec Hugging Face TGI

L'exemple suivant montre comment exécuter un service de backend qui exécute le kit d'outils d'inférence de génération de texte (TGI) de Hugging Face à l'aide de Llama 3. Hugging Face TGI est un grand modèle de langage (LLM) open source qui peut être déployé et diffusé sur le service Cloud Run avec les GPU activés.

Pour accéder à l'exemple complet, consultez la section Déployer Llama 3.1 8B avec le DLC TGI sur Cloud Run.