Ejecuta la inferencia de LLM en Cloud Run con Hugging Face TGI

En el siguiente ejemplo, se muestra cómo ejecutar un servicio de backend que ejecuta el kit de herramientas de inferencia de generación de texto (TGI) de Hugging Face con Llama 3. Hugging Face TGI son modelos de lenguaje grandes (LLM) abiertos que se pueden implementar y entregar en el servicio de Cloud Run con GPUs habilitadas.

Consulta el ejemplo completo en Implementa Llama 3.1 8B con el DLC de TGI en Cloud Run.

Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.

Última actualización: 2026-01-22 (UTC)