Execute a inferência de MDIs no Cloud Run com o TGI do Hugging Face

O exemplo seguinte mostra como executar um serviço de back-end que executa o conjunto de ferramentas de inferência de geração de texto (TGI) do Hugging Face com o Llama 3. O Hugging Face TGI é um grande modelo de linguagem (GML) aberto que pode ser implementado e publicado no serviço Cloud Run com GPUs ativadas.

Veja o exemplo completo em Implemente o Llama 3.1 8B com o TGI DLC no Cloud Run.