Documentation sur l'orchestration de l'IA/du ML sur Cloud Run

Cloud Run est une plate-forme entièrement gérée qui vous permet d'exécuter vos applications conteneurisées, y compris les charges de travail d'IA/ML, directement sur l'infrastructure évolutive de Google. Il gère l'infrastructure pour vous. Vous pouvez ainsi vous concentrer sur l'écriture de votre code au lieu de passer du temps à utiliser, configurer et faire évoluer vos ressources Cloud Run. Les fonctionnalités de Cloud Run offrent les avantages suivants :

  • Accélérateurs matériels : accédez aux GPU et gérez-les pour l'inférence à grande échelle.
  • Frameworks compatibles : intégrez les frameworks de diffusion de modèles que vous connaissez et auxquels vous faites déjà confiance, tels que Hugging Face, TGI et vLLM.
  • Plate-forme gérée : profitez de tous les avantages d'une plate-forme gérée pour automatiser, faire évoluer et améliorer la sécurité de l'ensemble de votre cycle de vie d'IA/ML tout en conservant la flexibilité.

Découvrez nos tutoriels et nos bonnes pratiques pour savoir comment Cloud Run peut optimiser vos charges de travail d'IA/ML.

  • Développez des applications avec nos derniers modèles et outils d'IA générative.
  • Utilisez gratuitement plus de 20 produits populaires, y compris Compute Engine et les API d'IA.
  • Aucuns frais automatiques, aucun engagement.

Continuez à explorer le monde avec plus de 20 produits toujours gratuits.

Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.

Explorez les auto-formations, des cas d'utilisation, des architectures de référence et des exemples de code illustrant comment utiliser des services Google Cloud et s'y connecter.
Cas d'utilisation
Cas d'utilisation

Utilisez les GPU NVIDIA L4 sur Cloud Run pour l'inférence d'IA en temps réel, y compris les avantages du démarrage à froid rapide et de la mise à l'échelle à zéro pour les grands modèles de langage (LLM).

GPU LLM

Cas d'utilisation
Cas d'utilisation

Découvrez comment utiliser Cloud Run pour les applications d'IA prêtes pour la production. Ce guide décrit des cas d'utilisation tels que la répartition du trafic pour les tests A/B des requêtes, les modèles RAG (génération augmentée par récupération) et la connectivité aux magasins de vecteurs.

Applications d'IA Répartition du trafic pour les tests A/B Modèles RAG Magasins de vecteurs Connectivité aux magasins de vecteurs

Cas d'utilisation
Cas d'utilisation

Déploiement en un clic depuis Google AI Studio vers Cloud Run et le serveur MCP (Model Context Protocol) Cloud Run pour activer les agents d'IA dans les IDE ou les SDK d'agent et déployer des applications.

Déploiements de serveurs MCP sur Cloud Run

Cas d'utilisation
Cas d'utilisation

Intégrez les GPU NVIDIA L4 à Cloud Run pour un service LLM économique. Ce guide met l'accent sur la mise à l'échelle à zéro et fournit des étapes de déploiement pour des modèles tels que Gemma 2 avec Ollama.

LLM GPU Ollama Optimisation des coûts

Cas d'utilisation
Cas d'utilisation

Dissociez les fichiers de modèle volumineux de l'image de conteneur à l'aide de Cloud Storage FUSE. Le découplage améliore les temps de compilation, simplifie les mises à jour et crée une architecture de diffusion plus évolutive.

Packaging de modèles Cloud Storage FUSE Bonnes pratiques Grands modèles

Cas d'utilisation
Cas d'utilisation

Utilisez le framework Cog, optimisé pour le serving de ML, afin de simplifier l'empaquetage et le déploiement de conteneurs sur Cloud Run.

Cog Packaging de modèle Déploiement Tutoriel

Cas d'utilisation
Cas d'utilisation

Utilisez Cloud Run pour l'inférence ML légère et créez une pile de surveillance économique à l'aide de services GCP natifs tels que Cloud Logging et BigQuery.

Surveillance MLOps Rentabilité Inférence

Cas d'utilisation
Cas d'utilisation

Déployez une application Flask simple qui appelle l'API Vertex AI Generative AI sur un service Cloud Run évolutif.

IA générative Vertex AI Flask Déploiement

Cas d'utilisation
Cas d'utilisation

Utilisez le code Python Gemma d'AI Studio et déployez-le directement sur une instance Cloud Run, en tirant parti de Secret Manager pour une gestion sécurisée des clés API.

AI Studio Gemma Déploiement Tutoriel

Vidéos similaires