Exécuter l'inférence de l'IA sur Cloud Run avec des GPU

Utilisez des GPU pour exécuter l'inférence d'IA sur Cloud Run. Si vous ne connaissez pas encore les concepts d'IA, consultez GPU pour l'IA. Les GPU sont utilisés pour entraîner et exécuter des modèles d'IA. Cela peut vous permettre d'obtenir des performances plus stables et de faire évoluer les charges de travail en fonction de votre utilisation globale. Pour en savoir plus sur les configurations de GPU, consultez la section sur la compatibilité des GPU avec les services, les jobs et les pools de nœuds de calcul.

Tutoriels pour les services

Exécuter l'inférence LLM sur les GPU Cloud Run avec Gemma 3 et Ollama
Exécuter Gemma 3 sur Cloud Run
Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM
Exécuter OpenCV sur Cloud Run avec l'accélération du GPU
Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face Transformers.js
Exécuter l'inférence LLM sur les GPU Cloud Run avec Hugging Face TGI

Tutoriels pour les tâches

Ajuster les LLM à l'aide de GPU avec les jobs Cloud Run
Exécuter l'inférence par lot à l'aide de GPU sur les jobs Cloud Run
Transcodage vidéo accéléré par GPU avec FFmpeg sur les jobs Cloud Run

Exécuter l'inférence de l'IA sur Cloud Run avec des GPU Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Tutoriels pour les services

Tutoriels pour les tâches

Exécuter l'inférence de l'IA sur Cloud Run avec des GPU