Usa GPUs para ejecutar la inferencia de IA en Cloud Run. Si no conoces los conceptos de IA, consulta GPU para IA. Las GPU se usan para entrenar y ejecutar modelos de IA. Esto puede brindarte un rendimiento más estable con la capacidad de escalar las cargas de trabajo según tu utilización general. Consulta la compatibilidad con GPU para servicios, trabajos y grupos de trabajadores para obtener más información sobre las configuraciones de GPU.
Instructivos para servicios
- Ejecuta la inferencia de LLM en GPUs de Cloud Run con Gemma 3 y Ollama
- Ejecuta Gemma 3 en Cloud Run
- Ejecuta la inferencia de LLM en GPUs de Cloud Run con vLLM
- Ejecuta OpenCV en Cloud Run con aceleración de GPU
- Ejecuta la inferencia de LLM en GPUs de Cloud Run con Hugging Face Transformers.js
- Ejecuta la inferencia de LLM en GPUs de Cloud Run con Hugging Face TGI
Instructivos para trabajos
- Ajusta LLMs con GPUs usando trabajos de Cloud Run
- Ejecuta la inferencia por lotes con GPUs en trabajos de Cloud Run
- Transcodificación de video acelerada por GPU con FFmpeg en trabajos de Cloud Run