Ejecutar la inferencia de LLMs en Cloud Run con Hugging Face TGI

En el siguiente ejemplo se muestra cómo ejecutar un servicio backend que ejecuta el kit de herramientas de inferencia de generación de texto (TGI) de Hugging Face con Llama 3. Hugging Face TGI es un modelo de lenguaje extenso (LLM) abierto que se puede desplegar y servir en el servicio Cloud Run con las GPUs habilitadas.

Consulta el ejemplo completo en Desplegar Llama 3.1 8B con TGI DLC en Cloud Run.

A menos que se indique lo contrario, el contenido de esta página está sujeto a la licencia Reconocimiento 4.0 de Creative Commons y las muestras de código están sujetas a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio web de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2026-01-14 (UTC).