Utilisez des GPU pour exécuter l'inférence de l'IA sur Cloud Run. Si vous ne connaissez pas les concepts d'IA, consultez la page GPU pour l'IA. Les GPU sont utilisés pour entraîner et exécuter des modèles d'IA. Cela peut vous offrir des performances plus stables avec la possibilité de mettre à l'échelle les charges de travail en fonction de votre utilisation globale. Pour en savoir plus sur les configurations de GPU, consultez la section Compatibilité des GPU avec les services, jobs, et les pools de nœuds de calcul.
Tutoriels pour les services
- Exécuter Gemma sur Cloud Run
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Gemma et Ollama
- Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM
- Exécuter OpenCV sur Cloud Run avec l'accélération du GPU
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face Transformers.js
- Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face TGI
Tutoriels pour les jobs
- Ajuster les LLM à l'aide de GPU avec des jobs Cloud Run
- Exécuter l'inférence par lot à l'aide de GPU sur des jobs Cloud Run
- Transcodage vidéo accéléré par GPU avec FFmpeg sur des jobs Cloud Run