Utilisez des GPU pour exécuter l'inférence d'IA sur Cloud Run. Si vous ne connaissez pas encore les concepts d'IA, consultez GPU pour l'IA. Les GPU sont utilisés pour entraîner et exécuter des modèles d'IA. Cela peut vous permettre d'obtenir des performances plus stables et de faire évoluer les charges de travail en fonction de votre utilisation globale. Pour en savoir plus sur les configurations de GPU, consultez la section sur la compatibilité des GPU avec les services, les jobs et les pools de nœuds de calcul.
Tutoriels pour les services
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Gemma 3 et Ollama
- Exécuter Gemma 3 sur Cloud Run
- Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM
- Exécuter OpenCV sur Cloud Run avec l'accélération du GPU
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face Transformers.js
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face TGI
Tutoriels pour les tâches
- Ajuster les LLM à l'aide de GPU avec les jobs Cloud Run
- Exécuter l'inférence par lot à l'aide de GPU sur les jobs Cloud Run
- Transcodage vidéo accéléré par GPU avec FFmpeg sur les jobs Cloud Run