Esegui l'inferenza LLM su Cloud Run con Hugging Face TGI

L'esempio seguente mostra come eseguire un servizio di backend che esegue il toolkit Hugging Face Text Generation Inference (TGI) utilizzando Llama 3. Hugging Face TGI è un modello linguistico di grandi dimensioni (LLM) aperto e può essere implementato e gestito nel servizio Cloud Run con le GPU abilitate.

Vedi l'esempio completo in Esegui il deployment di Llama 3.1 8B con TGI DLC su Cloud Run.