Cas d'utilisation de l'IA sur Cloud Run

Que vous créiez des agents, exécutiez des modèles d'inférence ou que vous vous intégriez à divers services d'IA, Cloud Run offre l'évolutivité, la flexibilité et la facilité d'utilisation nécessaires pour donner vie à vos innovations en matière d'IA.

Cette page présente quelques cas d'utilisation généraux pour héberger, compiler et déployer des charges de travail d'IA sur Cloud Run.

Pourquoi utiliser Cloud Run pour les charges de travail d'IA ?

Cloud Run offre plusieurs avantages pour garantir que vos applications d'IA sont évolutives, flexibles et gérables. Voici quelques exemples :

  • Prise en charge flexible des conteneurs : packagez votre application et ses dépendances dans un conteneur, ou utilisez n'importe quel langage, bibliothèque ou framework compatibles. En savoir plus sur le contrat d'exécution du conteneur Cloud Run
  • Point de terminaison HTTP : après avoir déployé un service Cloud Run, vous recevez un point de terminaison d'URL Cloud Run sécurisé et prêt à l'emploi. Cloud Run fournit le streaming en prenant en charge l'encodage de transfert HTTP par blocs, HTTP/2 et WebSockets.
  • Scaling automatique ou manuel : par défaut, Cloud Run adapte automatiquement la capacité de votre service en fonction de la demande, même jusqu'à zéro. Cela vous permet de ne payer que ce que vous utilisez, ce qui est idéal pour les charges de travail d'IA imprévisibles. Vous pouvez également définir votre service sur le scaling manuel en fonction de vos besoins en termes de trafic et d'utilisation du processeur.
  • Compatibilité avec les GPU : accélérez vos modèles d'IA en configurant des ressources Cloud Run avec des GPU. Les services Cloud Run avec GPU activés peuvent être mis à l'échelle zéro pour réduire les coûts lorsqu'ils ne sont pas utilisés.

  • Écosystème intégré : connectez-vous facilement à d'autres services Google Cloud , tels que Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB pour PostgreSQL, Cloud CDN, Secret Manager et les domaines personnalisés, pour créer des pipelines d'IA complets de bout en bout. Google Cloud Observability fournit également des outils de surveillance et de journalisation intégrés pour comprendre les performances des applications et résoudre efficacement les problèmes.

  • Prêt pour l'entreprise : Cloud Run offre une connectivité VPC directe, une sécurité précise et des contrôles réseau.

Principaux cas d'utilisation de l'IA

Voici quelques exemples d'utilisation de Cloud Run pour alimenter vos applications d'IA :

Héberger des agents et des robots d'IA

Cloud Run est une plate-forme idéale pour héberger la logique de backend des agents d'IA, des chatbots et des assistants virtuels. Ces agents peuvent orchestrer des appels à des modèles d'IA tels que Gemini sur Vertex AI, gérer l'état et s'intégrer à divers outils et API.

  • Microservices pour les agents : déployez des fonctionnalités d'agent individuelles en tant que services Cloud Run distincts. Pour en savoir plus, consultez Héberger des agents d'IA.
  • Communication Agent2Agent (A2A) : créez des systèmes d'agents collaboratifs à l'aide du protocole A2A. Pour en savoir plus, consultez Héberger des agents A2A.
  • Serveurs MCP (Model Context Protocol) : implémentez des serveurs MCP pour fournir un contexte standardisé aux LLM à partir de vos outils et sources de données. Pour en savoir plus, consultez Héberger des serveurs MCP.

Diffuser des modèles d'IA/de ML pour l'inférence

Déployez vos modèles de machine learning entraînés en tant que points de terminaison HTTP évolutifs.

  • Inférence en temps réel : diffusez des prédictions à partir de modèles créés avec des frameworks tels que TensorFlow, PyTorch ou scikit-learn, ou à l'aide de modèles ouverts comme Gemma. Pour obtenir un exemple, consultez Exécuter Gemma 3 sur Cloud Run.
  • Accélération GPU : utilisez des GPU NVIDIA pour accélérer l'inférence pour les modèles plus exigeants. Pour en savoir plus, consultez Configurer le GPU pour les services.
  • Intégration à Vertex AI : diffusez des modèles entraînés ou déployés sur Vertex AI à l'aide de Cloud Run comme interface évolutive.
  • Dissociez les fichiers de modèles volumineux de votre conteneur : l'adaptateur Cloud Storage FUSE vous permet d'installer un bucket Cloud Storage et de le rendre accessible en tant que répertoire local dans votre conteneur Cloud Run.

Créer des systèmes de génération augmentée par récupération (RAG)

Créez des applications RAG en connectant des services Cloud Run à vos sources de données.

  • Bases de données vectorielles : connectez-vous à des bases de données vectorielles hébergées sur Cloud SQL (avec pgvector), AlloyDB pour PostgreSQL, Memorystore pour Redis ou d'autres magasins de vecteurs spécialisés pour récupérer le contexte pertinent pour vos LLM. Consultez un exemple d'infrastructure d'utilisation de Cloud Run pour héberger une application d'IA générative compatible avec RAG et le traitement des données à l'aide de Vertex AI et de la recherche vectorielle.
  • Accès aux données : récupérez des données depuis Cloud Storage, BigQuery, Firestore ou d'autres API pour enrichir les requêtes.

Héberger des API et des backends basés sur l'IA

Créez des API et des microservices qui intègrent des fonctionnalités d'IA.

  • API intelligentes : développez des API qui utilisent des LLM pour la compréhension du langage naturel, l'analyse des sentiments, la traduction, la synthèse, etc.
  • Workflows automatisés : créez des services qui déclenchent des actions basées sur l'IA en fonction d'événements ou de requêtes.

Créer des prototypes et tester des idées

Itérez rapidement sur les idées d'IA.

  • Déploiement rapide : transférez rapidement des prototypes d'environnements tels que Vertex AI Studio, Google AI Studio ou les notebooks Jupyter vers des déploiements évolutifs sur Cloud Run avec une configuration minimale.
  • Répartition du trafic : utilisez la fonctionnalité de répartition du trafic de Cloud Run pour effectuer des tests A/B sur différents modèles, requêtes ou configurations, et Google Cloud Observability pour surveiller les métriques (latence, taux d'erreur, coût) afin de mesurer le succès des tests A/B.

Étapes suivantes

En fonction de votre connaissance des concepts d'IA et de votre cas d'utilisation de l'IA, explorez les ressources d'IA Cloud Run.