Executar inferência de LLM no Cloud Run com o TGI do Hugging Face

O exemplo a seguir mostra como executar um serviço de back-end que executa o kit de ferramentas de inferência de geração de texto (TGI) do Hugging Face usando o Llama 3. O TGI do Hugging Face é um modelo de linguagem grande (LLM) aberto que pode ser implantado e disponibilizado no serviço do Cloud Run com GPUs ativadas.

Confira o exemplo completo em Implantar o Llama 3.1 8B com o DLC TGI no Cloud Run.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2026-03-15 UTC.