Utilisez des GPU pour exécuter l'inférence de l'IA sur Cloud Run. Si vous ne connaissez pas encore les concepts d'IA, consultez GPU pour l'IA. Les GPU sont utilisés pour entraîner et exécuter des modèles d'IA. Cela peut vous permettre d'obtenir des performances plus stables et de faire évoluer les charges de travail en fonction de votre utilisation globale. Pour en savoir plus sur les configurations de GPU, consultez la section sur la compatibilité des GPU avec les services, les jobs et les pools de nœuds de calcul.
Tutoriels pour les services
- Exécuter Gemma sur Cloud Run
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Gemma et Ollama
- Exécuter OpenCV sur Cloud Run avec l'accélération du GPU
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face Transformers.js
Tutoriels pour les tâches
- Ajuster précisément les LLM à l'aide de GPU avec les jobs Cloud Run
- Exécuter une inférence par lot à l'aide de GPU sur des jobs Cloud Run
- Transcodage vidéo accéléré par GPU avec FFmpeg sur les jobs Cloud Run