Cette page présente des cas d'utilisation pour l'hébergement d'agents d'IA sur Cloud Run.
Les agents d'IA sont des entités logicielles autonomes qui utilisent des systèmes optimisés par des LLM pour percevoir, décider et agir afin d'atteindre des objectifs. À mesure que des agents plus autonomes sont créés, leur capacité à communiquer et à collaborer devient cruciale.
Pour une présentation des agents d'IA, consultez Qu'est-ce qu'un agent d'IA ?.
Cas d'utilisation des agents d'IA sur Cloud Run
Vous pouvez implémenter des agents d'IA en tant que services Cloud Run pour orchestrer un ensemble de tâches asynchrones et fournir des informations par le biais de plusieurs interactions de demande-réponse.
Un service Cloud Run est un point de terminaison d'API évolutif pour la logique principale de votre application. Il gère efficacement plusieurs utilisateurs simultanés grâce à un scaling automatique, à la demande et rapide des instances.
Architecture d'un agent d'IA sur Cloud Run
Une architecture d'agent d'IA type déployée sur Cloud Run peut impliquer plusieurs composants de Google Cloud et en dehors de Google Cloud :
Le schéma montre les éléments suivants :
Plate-forme d'hébergement : Cloud Run est une plate-forme d'hébergement permettant d'exécuter des agents. Elle offre les avantages suivants :
- Permet d'exécuter n'importe quel framework d'agent pour créer différents types d'agents et d'architectures agentives. Voici quelques exemples de frameworks d'agents : Agent Development Kit (ADK), Dify, LangGraph et n8n.
- Fournit des fonctionnalités intégrées pour gérer votre agent. Par exemple, Cloud Run fournit une identité de service intégrée que vous pouvez utiliser comme identité d'agent pour appeler les API Google Cloud avec des identifiants sécurisés et automatiques.
- Permet de connecter votre framework d'agent à d'autres services. Vous pouvez connecter votre agent à des outils propriétaires ou tiers déployés sur Cloud Run. Par exemple, pour obtenir de la visibilité sur les tâches et les exécutions de votre agent, vous pouvez déployer et utiliser des outils tels que Langfuse et Arize.
Interactions avec l'agent : Cloud Run est compatible avec les réponses HTTP en streaming renvoyées à l'utilisateur et avec WebSockets pour les interactions en temps réel.
Modèles d'IA générative : la couche d'orchestration appelle des modèles pour les capacités de raisonnement. Ces modèles peuvent être hébergés sur des services tels que les suivants :
- API Gemini pour les modèles d'IA générative de Google.
- Points de terminaison Vertex AI pour les modèles personnalisés ou d'autres modèles de fondation.
- Service Cloud Run compatible avec les GPU pour vos propres modèles affinés.
Mémoire : les agents ont souvent besoin de mémoire pour conserver le contexte et tirer des enseignements des interactions passées. Vous pouvez utiliser les services suivants :
- Memorystore pour Redis pour la mémoire à court terme.
- Firestore pour la mémoire à long terme, par exemple pour stocker l'historique des conversations ou mémoriser les préférences de l'utilisateur.
Base de données vectorielle : pour la génération augmentée par récupération (RAG) ou l'extraction de données structurées, utilisez une base de données vectorielle pour interroger des informations spécifiques sur les entités ou effectuer une recherche vectorielle sur les embeddings. Utilisez l'extension
pgvectoravec les services suivants :Outils : l'orchestrateur utilise des outils pour effectuer des tâches spécifiques afin d'interagir avec des services, des API ou des sites Web externes. Cela peut inclure :
- MCP (Model Context Protocol) : utilisez ce protocole standardisé pour communiquer avec des outils externes exécutés via un serveur MCP.
- Utilitaires de base : calculs mathématiques précis, conversions d'heures ou autres utilitaires similaires.
- Appels d'API : effectuez des appels vers d'autres API internes ou tierces (accès en lecture ou en écriture).
- Génération d'images ou de graphiques : créez des contenus visuels rapidement et efficacement.
- Automatisation du navigateur et de l'OS : exécutez un système d'exploitation sans interface graphique ou avec interface graphique complète dans des instances de conteneur pour permettre à l'agent de naviguer sur le Web, d'extraire des informations de sites Web ou d'effectuer des actions à l'aide de clics et de saisies au clavier.
- Exécution de code : Exécuter du code dans un environnement sécurisé avec un bac à sable multicouche, avec des autorisations IAM minimales ou nulles.
Étapes suivantes
- Regardez Créer des agents d'IA sur Cloud Run.
- Suivez l'atelier de programmation pour apprendre à créer et déployer une application LangChain sur Cloud Run.
- Découvrez comment déployer l'Agent Development Kit (ADK) sur Cloud Run.
- Essayez l'atelier de programmation pour utiliser un serveur MCP sur Cloud Run avec un agent ADK.
- Essayez l'atelier de programmation pour déployer votre agent ADK sur Cloud Run avec GPU.
- Découvrez des exemples d'agents prêts à l'emploi dans les exemples d'Agent Development Kit (ADK).
- Hébergez des serveurs MCP (Model Context Protocol) sur Cloud Run.