Ejecutar la inferencia de LLMs en Cloud Run con Hugging Face TGI

En el siguiente ejemplo se muestra cómo ejecutar un servicio backend que ejecuta el kit de herramientas de inferencia de generación de texto (TGI) de Hugging Face con Llama 3. Hugging Face TGI es un modelo de lenguaje extenso (LLM) abierto que se puede desplegar y servir en el servicio Cloud Run con las GPUs habilitadas.

Consulta el ejemplo completo en Desplegar Llama 3.1 8B con TGI DLC en Cloud Run.