Ejecuta la inferencia de LLM en Cloud Run con Hugging Face TGI

En el siguiente ejemplo, se muestra cómo ejecutar un servicio de backend que ejecuta el kit de herramientas de inferencia de generación de texto (TGI) de Hugging Face con Llama 3. Hugging Face TGI son modelos de lenguaje grandes (LLM) abiertos que se pueden implementar y entregar en el servicio de Cloud Run con GPUs habilitadas.

Consulta el ejemplo completo en Implementa Llama 3.1 8B con el DLC de TGI en Cloud Run.