Verwenden Sie GPUs, um KI-Inferenzen in Cloud Run auszuführen. Wenn Sie sich mit KI-Konzepten noch nicht auskennen, lesen Sie den Artikel GPUs für KI. GPUs werden zum Trainieren und Ausführen von KI-Modellen verwendet. Dadurch können Sie eine stabilere Leistung erzielen und Arbeitslasten je nach Gesamtauslastung skalieren. Weitere Informationen zu GPU-Konfigurationen finden Sie unter GPU-Unterstützung für Dienste, Jobs und Worker-Pools.
Anleitungen für Dienste
- Gemma in Cloud Run ausführen
- LLM-Inferenzen auf Cloud Run-GPUs mit Gemma und Ollama ausführen
- LLM-Inferenzen auf Cloud Run-GPUs mit vLLM ausführen
- OpenCV in Cloud Run mit GPU-Beschleunigung ausführen
- LLM-Inferenzen auf Cloud Run-GPUs mit Hugging Face Transformers.js ausführen
- LLM-Inferenzen auf Cloud Run-GPUs mit Hugging Face TGI ausführen
Anleitungen für Jobs
- LLMs mit GPUs und Cloud Run-Jobs optimieren
- Batch-Inferenzen mit GPUs in Cloud Run-Jobs ausführen
- GPU-beschleunigte Videotranscodierung mit FFmpeg in Cloud Run-Jobs