Utilizza le GPU per eseguire l'inferenza AI su Cloud Run. Se non hai familiarità con i concetti di AI, consulta GPU per l'AI. Le GPU vengono utilizzate per addestrare ed eseguire modelli di AI. In questo modo puoi ottenere prestazioni più stabili con la possibilità di scalare i carichi di lavoro in base all'utilizzo complessivo. Per saperne di più sulle configurazioni delle GPU, consulta Supporto GPU per servizi, job, e pool di worker.
Tutorial per i servizi
- Esegui Gemma su Cloud Run
- Esegui l'inferenza LLM sulle GPU di Cloud Run con Gemma e Ollama
- Esegui l'inferenza LLM sulle GPU di Cloud Run con vLLM
- Esegui OpenCV su Cloud Run con accelerazione GPU
- Esegui l'inferenza LLM sulle GPU di Cloud Run con Hugging Face Transformers.js
- Esegui l'inferenza LLM sulle GPU di Cloud Run con Hugging Face TGI
Tutorial per i job
- Ottimizza gli LLM utilizzando le GPU con i job Cloud Run
- Esegui l'inferenza batch utilizzando le GPU sui job Cloud Run
- Transcodifica video con accelerazione GPU con FFmpeg sui job Cloud Run