Documentation sur l'orchestration de l'IA/du ML sur Cloud Run

Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter vos applications conteneurisées, y compris les charges de travail d'IA/ML, directement sur l'infrastructure évolutive de Google. Il gère l'infrastructure pour vous. Vous pouvez ainsi vous concentrer sur l'écriture de votre code au lieu de passer du temps à exploiter, configurer et faire évoluer vos ressources Cloud Run. Les fonctionnalités de Cloud Run offrent les avantages suivants :

  • Accélérateurs matériels : accédez aux GPU et gérez-les pour l'inférence à grande échelle.
  • Compatibilité avec les frameworks : intégrez les frameworks de mise en service du modèle que vous connaissez et auxquels vous faites déjà confiance, tels que Hugging Face, TGI et vLLM.
  • Plate-forme gérée : profitez de tous les avantages d'une plate-forme gérée pour automatiser, faire évoluer et améliorer la sécurité de l'ensemble de votre cycle de vie d'IA/de ML tout en conservant la flexibilité.

Découvrez nos tutoriels et nos bonnes pratiques pour savoir comment Cloud Run peut optimiser vos charges de travail d'IA/ML.

  • Développez des solutions avec nos derniers modèles et outils d'IA générative.
  • Utilisez sans frais plus de 20 produits populaires, y compris Compute Engine et les API d'IA.
  • Le tout, sans aucuns frais automatiques, ni aucun engagement.

Continuez à explorer avec plus de 20 produits toujours disponibles sans frais.

Accédez à plus de 20 produits disponibles sans frais pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.

Explorez les auto-formations, des cas d'utilisation, des architectures de référence et des exemples de code illustrant comment utiliser des services Google Cloud et s'y connecter.
Cas d'utilisation
Cas d'utilisation

Optimisez la latence de démarrage à froid pour l'inférence LLM conteneurisée sur en utilisant les paramètres de configuration sans serveur et l'optimisation du modèle de conception de l'architecture.

Démarrages à froid Latence Optimisation LLM

Cas d'utilisation
Cas d'utilisation

Configurez et appliquez des règles d'autorisation MCP (Model Context Protocol) pour sécuriser la connectivité des outils à distance pour les agents d'IA déployés sur .

Sécurité MCP Agents

Cas d'utilisation
Cas d'utilisation

Déployez des applications full stack sur directement depuis le mode Créer de Google AI Studio avec la prise en charge intégrée de Firebase et .

AI Studio Firebase vibe coding

Cas d'utilisation
Cas d'utilisation

Utilisez des GPU NVIDIA L4 sur pour l'inférence d'IA en temps réel, y compris les avantages du démarrage à froid rapide et du scaling à zéro instance pour les grands modèles de langage (LLM).

GPU LLM

Cas d'utilisation
Cas d'utilisation

Découvrez comment utiliser pour les applications d'IA prêtes pour la production. Ce guide décrit des cas d'utilisation tels que la répartition du trafic pour les tests A/B des prompts, les modèles RAG (génération augmentée par récupération) et la connectivité aux magasins de vecteurs.

Applications d'IA Répartition du trafic pour les tests A/B Schémas RAG Magasins de vecteurs Connectivité aux magasins de vecteurs

Cas d'utilisation
Cas d'utilisation

Déploiement en un clic depuis Google AI Studio vers et le serveur MCP (Model Context Protocol) pour activer les agents IA dans les IDE ou les SDK d'agent et déployer des applications.

Déploiements

Cas d'utilisation
Cas d'utilisation

Intégrez les GPU NVIDIA L4 à pour un service LLM économique. Ce guide met l'accent sur le scaling à zéro instance et fournit des étapes de déploiement pour des modèles tels que 2 avec Ollama.

LLM GPU Ollama Optimisation des coûts

Cas d'utilisation
Cas d'utilisation

Dissociez les fichiers de modèle volumineux de l'image de conteneur à l'aide de . Le découplage améliore les temps de compilation, simplifie les mises à jour et crée une architecture de diffusion plus évolutive.

Packaging du modèle Bonnes pratiques Grands modèles

Cas d'utilisation
Cas d'utilisation

Utilisez le framework Cog optimisé pour le serving de ML afin de simplifier l'empaquetage et le déploiement de conteneurs sur .

Cog Packaging du modèle Déploiement Tutoriel

Cas d'utilisation
Cas d'utilisation

Utilisez pour une inférence ML légère et créez une pile de surveillance économique en utilisant les services natifs tels que et .

Surveillance MLOps Rentabilité Inférence

Vidéos associées