Documentation sur l'orchestration de l'IA/du ML sur Cloud Run
Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter vos applications conteneurisées, y compris les charges de travail d'IA/ML, directement sur l'infrastructure évolutive de Google. Il gère l'infrastructure pour vous. Vous pouvez ainsi vous concentrer sur l'écriture de votre code au lieu de passer du temps à exploiter, configurer et faire évoluer vos ressources Cloud Run. Les fonctionnalités de Cloud Run offrent les avantages suivants :
- Accélérateurs matériels : accédez aux GPU et gérez-les pour l'inférence à grande échelle.
- Compatibilité avec les frameworks : intégrez les frameworks de mise en service du modèle que vous connaissez et auxquels vous faites déjà confiance, tels que Hugging Face, TGI et vLLM.
- Plate-forme gérée : profitez de tous les avantages d'une plate-forme gérée pour automatiser, faire évoluer et améliorer la sécurité de l'ensemble de votre cycle de vie d'IA/de ML tout en conservant la flexibilité.
Découvrez nos tutoriels et nos bonnes pratiques pour savoir comment Cloud Run peut optimiser vos charges de travail d'IA/ML.
Démarrez votre démonstration de faisabilité avec 300 $ de crédits inclus
- Développez des solutions avec nos derniers modèles et outils d'IA générative.
- Utilisez sans frais plus de 20 produits populaires, y compris Compute Engine et les API d'IA.
- Le tout, sans aucuns frais automatiques, ni aucun engagement.
Continuez à explorer avec plus de 20 produits toujours disponibles sans frais.
Accédez à plus de 20 produits disponibles sans frais pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.
Ressources de documentation
Exécuter des solutions d'IA
- Concept
- Concept
- HowTo
- HowTo
- HowTo
- Tutoriel
- Concept
- Concept
- Tutoriel
- Tutoriel
Inférence avec des GPU
- Tutoriel
- HowTo
- Tutoriel
- Bonne pratique
- Tutoriel
- Tutoriel
- Bonne pratique
- Bonne pratique
Résoudre les problèmes
- Concept
- HowTo
- HowTo
- HowTo
Ressources associées
Guide sur les démarrages à froid de l'IA sur
Optimisez la latence de démarrage à froid pour l'inférence LLM conteneurisée sur en utilisant les paramètres de configuration sans serveur et l'optimisation du modèle de conception de l'architecture.
Sécuriser les agents d'IA avec l'autorisation MCP
Configurez et appliquez des règles d'autorisation MCP (Model Context Protocol) pour sécuriser la connectivité des outils à distance pour les agents d'IA déployés sur .
AI Studio vous permet de coder des applications full stack avec , Firebase et , sans carte de crédit
Déployez des applications full stack sur directement depuis le mode Créer de Google AI Studio avec la prise en charge intégrée de Firebase et .
Exécutez vos applications d'inférence d'IA sur avec des GPU NVIDIA
Utilisez des GPU NVIDIA L4 sur pour l'inférence d'IA en temps réel, y compris les avantages du démarrage à froid rapide et du scaling à zéro instance pour les grands modèles de langage (LLM).
: le moyen le plus rapide de déployer vos applications d'IA en production
Découvrez comment utiliser pour les applications d'IA prêtes pour la production. Ce guide décrit des cas d'utilisation tels que la répartition du trafic pour les tests A/B des prompts, les modèles RAG (génération augmentée par récupération) et la connectivité aux magasins de vecteurs.
Déploiement de l'IA simplifié : déployez votre application sur à partir d'AI Studio ou d'agents d'IA compatibles avec MCP
Déploiement en un clic depuis Google AI Studio vers et le serveur MCP (Model Context Protocol) pour activer les agents IA dans les IDE ou les SDK d'agent et déployer des applications.
Optimiser les charges de travail d'IA grâce à la puissance des GPU : une nouvelle ère
Intégrez les GPU NVIDIA L4 à pour un service LLM économique. Ce guide met l'accent sur le scaling à zéro instance et fournit des étapes de déploiement pour des modèles tels que 2 avec Ollama.
Vous empaquetez toujours des modèles d'IA dans des conteneurs ? Suivez plutôt ces instructions sur
Dissociez les fichiers de modèle volumineux de l'image de conteneur à l'aide de . Le découplage améliore les temps de compilation, simplifie les mises à jour et crée une architecture de diffusion plus évolutive.
Empaquetez et déployez vos modèles de machine learning sur avec Cog
Utilisez le framework Cog optimisé pour le serving de ML afin de simplifier l'empaquetage et le déploiement de conteneurs sur .
Déployer et surveiller des modèles de ML avec : léger, évolutif et économique
Utilisez pour une inférence ML légère et créez une pile de surveillance économique en utilisant les services natifs tels que et .