Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Documentation sur l'orchestration de l'IA/du ML sur Cloud Run

Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter vos applications conteneurisées, y compris les charges de travail d'IA/ML, directement sur l'infrastructure évolutive de Google. Il gère l'infrastructure pour vous. Vous pouvez ainsi vous concentrer sur l'écriture de votre code au lieu de passer du temps à exploiter, configurer et faire évoluer vos ressources Cloud Run. Les fonctionnalités de Cloud Run offrent les avantages suivants :

Accélérateurs matériels : accédez aux GPU et gérez-les pour l'inférence à grande échelle.
Compatibilité avec les frameworks : intégrez les frameworks de mise en service du modèle que vous connaissez et auxquels vous faites déjà confiance, tels que Hugging Face, TGI et vLLM.
Plate-forme gérée : profitez de tous les avantages d'une plate-forme gérée pour automatiser, faire évoluer et améliorer la sécurité de l'ensemble de votre cycle de vie d'IA/ML tout en conservant la flexibilité.

Découvrez nos tutoriels et nos bonnes pratiques pour savoir comment Cloud Run peut optimiser vos charges de travail d'IA/ML.

Essai sans frais

Démarrez votre démonstration de faisabilité avec 300 $ de crédits inclus

Développez des solutions avec nos derniers modèles et outils d'IA générative.
Utilisez sans frais plus de 20 produits populaires, y compris Compute Engine et les API d'IA.
Le tout, sans aucuns frais automatiques, ni aucun engagement.

Afficher les offres produit sans frais

Continuez à explorer avec plus de 20 produits toujours disponibles sans frais.

Accédez à plus de 20 produits disponibles sans frais pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.

Ressources de documentation

Consultez des guides de démarrage rapide, des guides et des documents de référence clés, et obtenez de l'aide pour résoudre les problèmes courants.

Explorez les auto-formations, des cas d'utilisation, des architectures de référence et des exemples de code illustrant comment utiliser des services Google Cloud et s'y connecter.

Cas d'utilisation

Exécuter du code généré par l'IA de manière sécurisée dans des bacs à sable Cloud Run

Exécutez du code non approuvé généré par l'IA de manière sécurisée en déployant des bacs à sable Cloud Run qui exécutent des environnements d'exécution dans des conteneurs isolés basés sur gVisor.

Sécurité Bac à sable Exécution de code par l'IA

Cas d'utilisation

Guide sur les démarrages à froid de l'IA sur

Optimisez la latence de démarrage à froid pour l'inférence LLM conteneurisée sur en utilisant les paramètres de configuration sans serveur et l'optimisation du modèle de conception de l'architecture.

Démarrages à froid Latence Optimisation LLM

Cas d'utilisation

Sécuriser les agents d'IA avec l'autorisation MCP

Configurez et appliquez des règles d'autorisation MCP (Model Context Protocol) pour sécuriser la connectivité des outils à distance pour les agents d'IA déployés sur .

Sécurité MCP Agents

Cas d'utilisation

AI Studio vous permet de coder des applications full stack avec , Firebase et , sans carte de crédit

Déployez des applications full stack sur directement depuis le mode Créer de Google AI Studio avec la sauvegarde intégrée de Firebase et .

AI Studio Firebase vibe coding

Cas d'utilisation

Exécutez vos applications d'inférence d'IA sur avec des GPU NVIDIA

Utilisez des GPU NVIDIA L4 sur pour l'inférence d'IA en temps réel, y compris les avantages du démarrage à froid rapide et du scaling à zéro instance pour les grands modèles de langage (LLM).

GPU LLM

Cas d'utilisation

: le moyen le plus rapide de déployer vos applications d'IA en production

Découvrez comment utiliser pour les applications d'IA prêtes pour la production. Ce guide décrit des cas d'utilisation tels que la répartition du trafic pour les tests A/B des prompts, les modèles RAG (génération augmentée par récupération) et la connectivité aux magasins de vecteurs.

Applications d'IA Répartition du trafic pour les tests A/B Schémas RAG Magasins de vecteurs Connectivité aux magasins de vecteurs

Cas d'utilisation

Déploiement de l'IA simplifié : déployez votre application sur à partir d'AI Studio ou d'agents d'IA compatibles avec MCP

Déploiement en un clic depuis Google AI Studio vers et le serveur MCP (Model Context Protocol) pour activer les agents IA dans les IDE ou les SDK d'agent et déployer des applications.

Serveurs MCP déploiements

Cas d'utilisation

Optimiser les charges de travail d'IA grâce à la puissance des GPU : une nouvelle ère

Intégrez les GPU NVIDIA L4 à pour un service LLM économique. Ce guide met l'accent sur le scaling à zéro instance et fournit des étapes de déploiement pour des modèles tels que 2 avec Ollama.

LLM GPU Ollama Optimisation des coûts

Cas d'utilisation

Vous empaquetez toujours des modèles d'IA dans des conteneurs ? Suivez plutôt ces instructions sur

Dissociez les fichiers de modèle volumineux de l'image de conteneur à l'aide de . Le découplage améliore les temps de compilation, simplifie les mises à jour et crée une architecture de diffusion plus évolutive.

Packaging du modèle Bonnes pratiques Grands modèles

Cas d'utilisation

Empaquetez et déployez vos modèles de machine learning sur avec Cog

Utilisez le framework Cog, optimisé pour le service de ML, afin de simplifier l'empaquetage et le déploiement de conteneurs sur .

Cog Packaging du modèle Déploiement Tutoriel

Cas d'utilisation

Déployer et surveiller des modèles de ML avec : léger, évolutif et économique

Utilisez pour une inférence ML légère et créez une pile de surveillance économique en utilisant les services natifs tels que et .

Surveillance MLOps Rentabilité Inférence

Documentation sur l'orchestration de l'IA/du ML sur Cloud Run

Démarrez votre démonstration de faisabilité avec 300 $ de crédits inclus

Continuez à explorer avec plus de 20 produits toujours disponibles sans frais.

Exécuter des solutions d'IA

Inférence avec des GPU

Résoudre les problèmes

Vidéos associées