Utilizza le GPU per eseguire l'inferenza AI su Cloud Run. Se non hai familiarità con i concetti di AI, consulta GPU per l'AI. Le GPU vengono utilizzate per addestrare ed eseguire modelli di AI. In questo modo puoi ottenere prestazioni più stabili con la possibilità di scalare i carichi di lavoro in base all'utilizzo complessivo. Consulta il supporto GPU per servizi, job e pool di worker per scoprire di più sulle configurazioni GPU.
Tutorial per i servizi
- Esegui l'inferenza LLM sulle GPU Cloud Run con Gemma 3 e Ollama
- Esegui Gemma 3 su Cloud Run
- Esegui l'inferenza LLM sulle GPU Cloud Run con vLLM
- Esegui OpenCV su Cloud Run con accelerazione GPU
- Esegui l'inferenza LLM sulle GPU Cloud Run con Hugging Face Transformers.js
- Esegui l'inferenza LLM sulle GPU Cloud Run con Hugging Face TGI
Tutorial per i lavori
- Perfeziona i LLM utilizzando le GPU con i job Cloud Run
- Esegui l'inferenza batch utilizzando le GPU nei job Cloud Run
- Transcodifica video con accelerazione GPU con FFmpeg nei job Cloud Run