Documentation sur l'orchestration de l'IA/du ML sur Cloud Run
Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter vos applications conteneurisées, y compris les charges de travail d'IA/ML, directement sur l'infrastructure évolutive de Google. Il gère l'infrastructure pour vous. Vous pouvez ainsi vous concentrer sur l'écriture de votre code au lieu de passer du temps à utiliser, configurer et faire évoluer vos ressources Cloud Run. Les fonctionnalités de Cloud Run offrent les avantages suivants :
- Accélérateurs matériels : accédez aux GPU et gérez-les pour l'inférence à grande échelle.
- Frameworks compatibles : intégrez les frameworks de diffusion de modèles que vous connaissez et auxquels vous faites déjà confiance, tels que Hugging Face, TGI et vLLM.
- Plate-forme gérée : profitez de tous les avantages d'une plate-forme gérée pour automatiser, faire évoluer et améliorer la sécurité de l'ensemble de votre cycle de vie d'IA/ML tout en conservant la flexibilité.
Découvrez nos tutoriels et nos bonnes pratiques pour savoir comment Cloud Run peut optimiser vos charges de travail d'IA/ML.
Démarrez votre démonstration de faisabilité avec 300 $ de crédits inclus
- Développez des applications avec nos derniers modèles et outils d'IA générative.
- Utilisez gratuitement plus de 20 produits populaires, y compris Compute Engine et les API d'IA.
- Aucuns frais automatiques, aucun engagement.
Continuez à explorer le monde avec plus de 20 produits toujours gratuits.
Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.
Ressources de documentation
Exécuter des solutions d'IA
- Concept
- Concept
- Procédures
- Procédures
- Procédures
- Tutoriel
- Concept
- Concept
Inférence avec des GPU
- Tutoriel
- Procédures
- Tutoriel
- Bonne pratique
- Tutoriel
- Tutoriel
- Bonne pratique
- Bonne pratique
Résoudre les problèmes
- Concept
- Procédures
- Procédures
- Procédures
Ressources associées
Exécuter vos applications d'inférence d'IA sur Cloud Run avec des GPU NVIDIA
Utilisez les GPU NVIDIA L4 sur Cloud Run pour l'inférence d'IA en temps réel, y compris les avantages du démarrage à froid rapide et de la mise à l'échelle à zéro pour les grands modèles de langage (LLM).
Cloud Run : le moyen le plus rapide de déployer vos applications d'IA en production
Découvrez comment utiliser Cloud Run pour les applications d'IA prêtes pour la production. Ce guide décrit des cas d'utilisation tels que la répartition du trafic pour les tests A/B des requêtes, les modèles RAG (génération augmentée par récupération) et la connectivité aux magasins de vecteurs.
Déploiement d'IA simplifié : déployez votre application sur Cloud Run depuis AI Studio ou des agents d'IA compatibles avec MCP
Déploiement en un clic depuis Google AI Studio vers Cloud Run et le serveur MCP (Model Context Protocol) Cloud Run pour activer les agents d'IA dans les IDE ou les SDK d'agent et déployer des applications.
Optimiser Cloud Run avec la puissance des GPU : une nouvelle ère pour les charges de travail d'IA
Intégrez les GPU NVIDIA L4 à Cloud Run pour un service LLM économique. Ce guide met l'accent sur la mise à l'échelle à zéro et fournit des étapes de déploiement pour des modèles tels que Gemma 2 avec Ollama.
Vous empaquetez encore des modèles d'IA dans des conteneurs ? Voici ce que vous devez faire à la place sur Cloud Run :
Dissociez les fichiers de modèle volumineux de l'image de conteneur à l'aide de Cloud Storage FUSE. Le découplage améliore les temps de compilation, simplifie les mises à jour et crée une architecture de diffusion plus évolutive.
Empaqueter et déployer vos modèles de machine learning sur Google Cloud avec Cog
Utilisez le framework Cog, optimisé pour le serving de ML, afin de simplifier l'empaquetage et le déploiement de conteneurs sur Cloud Run.
Déployer et surveiller des modèles de ML avec Cloud Run : léger, évolutif et économique
Utilisez Cloud Run pour l'inférence ML légère et créez une pile de surveillance économique à l'aide de services GCP natifs tels que Cloud Logging et BigQuery.
Déployer une application d'IA générative Google Cloud dans un site Web avec Cloud Run
Déployez une application Flask simple qui appelle l'API Vertex AI Generative AI sur un service Cloud Run évolutif.
Déployer Gemma directement depuis AI Studio vers Cloud Run
Utilisez le code Python Gemma d'AI Studio et déployez-le directement sur une instance Cloud Run, en tirant parti de Secret Manager pour une gestion sécurisée des clés API.