Executar inferência de LLM no Cloud Run com o TGI do Hugging Face

O exemplo a seguir mostra como executar um serviço de back-end que executa o kit de ferramentas de inferência de geração de texto (TGI) do Hugging Face usando o Llama 3. O TGI do Hugging Face é um modelo de linguagem grande (LLM) aberto que pode ser implantado e disponibilizado no serviço do Cloud Run com GPUs ativadas.

Confira o exemplo completo em Implantar o Llama 3.1 8B com o DLC TGI no Cloud Run.