Cette page fournit une liste organisée de ressources pour vous aider à créer et à déployer des solutions d'IA sur Cloud Run.
Cloud Run est une plate-forme d'applications entièrement gérée qui vous permet d'exécuter votre code, fonction ou conteneur sur l'infrastructure hautement évolutive de Google. Vous pouvez utiliser Cloud Run pour exécuter diverses solutions d'IA, telles que des points de terminaison d'inférence d'IA, des API de modèles génératifs, des pipelines de génération augmentée par récupération (RAG) entiers, et plus encore.
Utilisez les catégories et les liens ci-dessous pour accéder aux guides officiels, aux démarrages rapides et aux contenus utiles de la communauté. Pour obtenir de la documentation et des recommandations sur Cloud Run, consultez Explorer les solutions d'IA sur Cloud Run.
Remarque sur les ressources de la communauté
Le contenu portant le libellé "Communauté" est une sélection de ressources de la communauté des développeurs. Il n'est pas développé ni géré par Google. Tenez compte des mises en garde suivantes lorsque vous utilisez ces ressources :
- Audit de sécurité : examinez toujours attentivement tout code, en particulier la façon dont il gère les informations privées, les saisies utilisateur et l'accès au réseau.
- Obsolescence et mises à jour : le code de la communauté peut devenir obsolète ou cesser de fonctionner avec les nouvelles fonctionnalités Cloud Run ou les nouvelles versions de l'IA sans avertissement. Vérifiez la date de sa dernière mise à jour et si elle est toujours activement gérée.
- Rentabilité : bien que ces configurations visent souvent à réduire les coûts, elles ne suivent pas forcément les bonnes pratiques de Google pour économiser de l'argent dans les projets en direct. Surveillez attentivement votre facturation.
- Conformité des licences : assurez-vous de comprendre et de respecter la licence Open Source pour tout code ou bibliothèque de la communauté que vous ajoutez à votre application.
- Testez avant de déployer : vérifiez tous les paramètres importants et essayez les solutions de la communauté dans un environnement de test avant de les utiliser pour des projets en direct.
Filtrer par catégorie ou par mot clé
Utilisez les filtres ou le champ de recherche pour trouver du contenu par catégorie ou mot clé.
| Catégories | Titre et description | Date de publication |
|---|---|---|
|
Blog
Gemma 3
|
Exercice pratique avec Gemma 3 sur Google Cloud Cet article de blog annonce deux ateliers de programmation qui montrent aux développeurs comment déployer Gemma 3 sur Google Cloud en utilisant Cloud Run pour une approche sans serveur ou Google Kubernetes Engine (GKE) pour une approche de plate-forme. |
2025-11-17 |
|
Blog
Outils
|
Automatisation simple des workflows d'IA : déployer n8n sur Cloud Run Cet article de blog explique comment déployer des agents à l'aide de l'outil d'automatisation de workflow n8n sur Cloud Run pour créer des workflows optimisés par l'IA et s'intégrer à des outils tels que Google Workspace. |
2025-11-07 |
|
Blog
Extensions
Gemini
|
Cet article de blog annonce l'extension Cloud Run dans Gemini CLI pour simplifier le déploiement d'applications avec une seule commande /deploy. |
2025-09-10 |
|
Blog
Extensions
Gemini
|
Cet article de blog annonce une collaboration entre Google Cloud et Docker qui simplifie le déploiement d'applications d'IA complexes en permettant aux développeurs d'utiliser la commande gcloud run compose up pour déployer leurs fichiers compose.yaml directement sur Cloud Run. |
2025-07-10 |
|
Blog
MCP
|
Créer et déployer un serveur MCP distant sur Google Cloud Run en moins de 10 minutes Cet article de blog fournit un guide détaillé pour créer et déployer un serveur MCP (Model Context Protocol) distant et sécurisé sur Google Cloud Run en moins de 10 minutes à l'aide de FastMCP, puis le tester à partir d'un client local. |
2025-06-07 |
|
Agents
AI Studio
Blog
MCP
|
Cet article de blog présente des méthodes permettant de simplifier les déploiements d'IA grâce au déploiement en un clic d'AI Studio vers Cloud Run, au déploiement direct des modèles Gemma 3 et à un serveur MCP pour les déploiements basés sur des agents. |
2025-05-20 |
|
Agents
Blog
Cas d'utilisation
|
Cet article explique comment CodeRabbit, un outil d'examen de code basé sur l'IA, utilise Cloud Run pour créer une plate-forme évolutive et sécurisée permettant d'exécuter du code non fiable, ce qui permet de réduire de moitié le temps d'examen du code et le nombre de bugs. |
2025-04-22 |
|
Blog
Vertex AI
|
Cet article présente une fonctionnalité de Vertex AI qui permet de déployer des applications Web sur Cloud Run en un clic. Utilisez des requêtes d'IA générative pour simplifier le processus de transformation d'un concept d'IA générative en prototype partageable. |
2025-02-20 |
|
Blog
Déploiement
|
Déployer l'IA sans serveur avec Gemma 3 sur Cloud Run Cet article de blog annonce Gemma 3, une famille de modèles d'IA ouverts et légers, et explique comment les déployer sur Cloud Run pour des applications d'IA sans serveur évolutives et économiques. |
2025-03-12 |
|
Blog
GPU
Inférence
RAG
Vertex AI
|
Débloquez l'inférence en tant que service avec Cloud Run et Vertex AI Cet article de blog explique comment les développeurs peuvent accélérer le développement d'applications d'IA générative en adoptant un modèle Inference-as-a-Service sur Cloud Run. Cela permet d'héberger et de mettre à l'échelle des LLM avec prise en charge des GPU, et de les intégrer à la génération augmentée par récupération (RAG) pour obtenir des réponses spécifiques au contexte. |
2025-02-20 |
|
Architecture
RAG
Vertex AI
|
Infrastructure RAG pour l'IA générative à l'aide de Vertex AI et Vector Search Ce document présente une architecture de référence pour la création d'une application d'IA générative avec génération augmentée de récupération (RAG) sur Google Cloud, en utilisant la recherche vectorielle pour la mise en correspondance de similarités à grande échelle et Vertex AI pour la gestion des embeddings et des modèles. |
2025-03-07 |
|
Agents
Antigravity
Vidéo
|
Arrêtez de coder, commencez à concevoir des architectures : Google Antigravity + Cloud Run Cette vidéo présente Antigravity, l'IDE agentique de Google. Utilisez-le pour créer et déployer une application Full Stack sur Cloud Run à partir de zéro. Regardez cette vidéo pour écrire une fiche technique pour l'IA, la forcer à utiliser Node.js moderne (sans étapes de compilation !), et la voir déboguer de manière autonome une incompatibilité de port lors du déploiement en modifiant un fichier de configuration. |
2025-12-08 |
|
Agents
GPU
Ollama
Vidéo
|
Cet agent d'IA s'exécute sur Cloud Run et des GPU NVIDIA Cette vidéo explique comment créer une application d'agent d'IA réelle sur un GPU NVIDIA sans serveur. Découvrez une démonstration d'un agent de santé intelligent qui utilise des modèles Open Source tels que Gemma avec Ollama sur Cloud Run, et LangGraph pour créer un workflow multi-agents (RAG + outils). |
2025-11-13 |
|
MCP
Vidéo
|
Optimisez vos agents IA avec les outils MCP sur Google Cloud Run Cette vidéo présente le protocole MCP (Model Context Protocol) et explique comment il facilite la vie des développeurs d'agents d'IA. Découvrez comment créer un serveur MCP à l'aide de FastMCP et déployer un agent ADK sur Cloud Run. Découvrez comment le code gère l'authentification de service à service à l'aide des jetons OIDC intégrés de Cloud Run. |
2025-11-06 |
|
Model Armor
Sécurité
Vidéo
|
Nous avons essayé de jailbreaker notre IA (et Model Armor l'a empêché) Cette vidéo montre un exemple d'utilisation de Model Armor de Google pour bloquer les menaces avec un appel d'API. |
2025-10-30 |
|
Benchmarking
Vertex AI
Vidéo
|
Ne devinez pas : comment évaluer vos requêtes d'IA Cette vidéo explique comment utiliser Vertex AI pour créer des applications d'IA générative fiables à l'aide des outils Google Cloud. Les développeurs apprendront à utiliser les outils Google Cloud pour le prototypage rapide, à obtenir des chiffres précis grâce à des benchmarks basés sur les données et, enfin, à créer un pipeline CI/CD automatisé pour un véritable contrôle qualité, tout en évitant les pièges courants. |
2025-10-23 |
|
ADK
Multi-agent
Vidéo
|
Créer une application multi-agents avec ADK et Gemini Cette vidéo montre comment créer une application à l'aide de l'ADK (Agent Development Toolkit) de Google, qui vous aide à affiner du contenu et à collaborer dessus. Découvrez pourquoi les multi-agents avec état fonctionnent mieux qu'un seul agent. |
2025-10-16 |
|
Gemini
Vidéo
|
Créer une application d'IA qui regarde des vidéos à l'aide de Gemini Cette vidéo montre comment créer une application qui regarde et comprend des vidéos YouTube à l'aide de Gemini 2.5 Pro. Utilisez des requêtes intelligentes pour personnaliser le contenu généré par votre application pour les articles de blog, les résumés, les quiz et plus encore. Cette vidéo explique comment intégrer Gemini pour générer du contenu textuel et des images d'en-tête à partir d'entrées vidéo, aborde les considérations liées aux coûts et explique comment gérer les vidéos plus longues avec des requêtes par lot. |
2025-10-06 |
|
GenAI
Vidéo
|
Créons une application d'IA générative sur Cloud Run Cette vidéo vous présente l'architecture et le code, en utilisant l'IA pour vous aider à chaque étape. |
2025-07-17 |
|
Agents
Firebase
Vidéo
|
Créer des agents d'IA avec Cloud Run et Firebase Genkit Cette vidéo explique comment créer des agents d'IA avec Cloud Run et Firebase Genkit, un outil de création d'agents d'IA sans serveur. |
2025-07-10 |
|
AI Studio
Firebase
Gemini
LLM
Vidéo
|
Cette vidéo montre comment créer rapidement une application d'assistance technique à l'aide d'AI Studio, de Cloud Functions et de Firebase Hosting. Découvrez comment exploiter les grands modèles de langage (LLM) et consultez un exemple pratique d'intégration de l'IA dans une application Web traditionnelle. |
2025-06-19 |
|
ADK
Agents
Frameworks
LangGraph
Vertex AI
Vidéo
|
Créer des agents d'IA sur Google Cloud Cette vidéo explique comment créer et déployer des agents d'IA à l'aide de Cloud Run et Vertex AI. Découvrez des concepts clés tels que l'appel d'outils, l'agnosticisme des modèles et l'utilisation de frameworks tels que LangGraph et l'Agent Development Kit (ADK). |
2025-05-21 |
|
Modèles d'IA
GPU
Ollama
Vidéo
|
Découvrez comment héberger DeepSeek avec des GPU Cloud Run en trois étapes Cette vidéo montre comment simplifier l'hébergement du modèle d'IA DeepSeek avec les GPU Cloud Run. Découvrez comment déployer et gérer des grands modèles de langage (LLM) sur Google Cloud en trois commandes. Regardez et découvrez les fonctionnalités de Cloud Run et de l'outil de ligne de commande Ollama, qui permettent aux développeurs d'exploiter rapidement des applications d'IA avec une allocation et un scaling des ressources à la demande. |
2025-04-24 |
|
Appel de fonction
Gemini
Vidéo
|
Utiliser l'appel de fonction Gemini avec Cloud Run Cette vidéo explore la puissance de l'appel de fonction Gemini et explique comment intégrer des API externes à vos applications d'IA. Créez une application météo qui exploite la compréhension du langage naturel de Gemini pour traiter les requêtes des utilisateurs et extraire les données météo d'une API externe. Vous obtiendrez ainsi un exemple pratique d'appel de fonction en action. |
2025-01-23 |
|
Génération d'images
Vertex AI
Vidéo
|
Générer des images à partir de texte avec Vertex AI sur Cloud Run Cette vidéo montre comment créer une application de génération d'images à l'aide de Vertex AI sur Google Cloud. Avec le modèle de génération d'images Vertex AI, les développeurs peuvent créer des visuels époustouflants sans avoir besoin d'une infrastructure ou d'une gestion de modèle complexes. |
2025-01-16 |
|
GPU
Ollama
Vidéo
|
Cette vidéo explique comment utiliser Ollama pour déployer facilement de grands modèles de langage sur Cloud Run avec des GPU, afin de déployer des modèles d'IA évolutifs et efficaces dans le cloud. |
2024-12-02 |
|
Protection des données
Sécurité
Vidéo
|
Protéger les données sensibles dans les applications d'IA Cette vidéo explique comment protéger les données sensibles dans les applications d'IA. Découvrez les concepts clés, les bonnes pratiques et les outils permettant de protéger les données tout au long du cycle de vie de l'IA. |
2024-11-21 |
|
LangChain
RAG
Vidéo
|
RAG avec LangChain sur Google Cloud Cette vidéo explique comment améliorer la précision de vos applications d'IA à l'aide de la génération augmentée par récupération (RAG). Créez une application Web qui exploite la puissance du RAG avec LangChain, une technique qui rend les réponses de l'IA plus précises. |
2024-11-07 |
|
Grande fenêtre de requête
Réglage du modèle
RAG
Vidéo
|
RAG vs réglage du modèle vs grande fenêtre d'invite Cette vidéo présente les trois principales méthodes d'intégration de vos données dans les applications d'IA : les requêtes avec de longues fenêtres de contexte, la génération augmentée par récupération (RAG) et l'ajustement de modèle. Découvrez les points forts, les limites et les cas d'utilisation idéaux de chaque approche pour prendre des décisions éclairées concernant vos projets d'IA dans cet épisode de Serverless Expeditions. |
2024-11-14 |
|
Ingénierie des requêtes
Vidéo
|
Ingénierie des requêtes pour les développeurs Cette vidéo explique comment utiliser le prompt engineering pour améliorer la qualité des réponses de l'IA. Regardez la vidéo pour découvrir comment obtenir des réponses plus précises et pertinentes de l'IA générative grâce aux techniques de requête en chaîne de pensée, few-shot et multi-shot. |
2024-10-31 |
|
Modèles d'IA
GPU
LLM
Vidéo
|
Déployer un LLM basé sur GPU sur Cloud Run Cette vidéo explique comment déployer votre propre grand modèle de langage (LLM) basé sur GPU sur Cloud Run. Cette vidéo explique comment prendre un modèle Open Source comme Gemma et le déployer en tant que service évolutif sans serveur avec accélération GPU. |
2024-10-06 |
|
GPU
LLM
Ollama
Vidéo
|
Utiliser des GPU dans Cloud Run Cette vidéo montre comment déployer Gemma 2 de Google, un grand modèle de langage Open Source, via Ollama sur Cloud Run. |
2024-10-03 |
|
Gemini
LLM
Vidéo
|
Créer des applications de chat optimisées par l'IA dans Google Cloud Cette vidéo montre comment créer une application de chat basée sur un grand modèle de langage (LLM) sur Gemini. |
2024-08-29 |
|
Multimodal
Vertex AI
Vidéo
|
Cette vidéo montre comment utiliser Vertex AI pour créer une application multimodale qui traite la vidéo, l'audio et le texte pour créer une sortie. |
2024-08-15 |
|
Modèles d'IA
Vertex AI
Vidéo
|
Utiliser l'IA générative sans serveur | Google Vertex AI Cette vidéo montre comment créer et déployer des applications d'IA générative ultra-rapides à l'aide de Vertex AI Studio, de Cloud Run et de modèles d'IA générative. |
2024-02-22 |
|
Atelier de programmation
Outils
|
Déployer et exécuter n8n sur Google Cloud Run Cet atelier de programmation explique comment déployer une instance prête pour la production de l'outil d'automatisation de workflow n8n sur Cloud Run, avec une base de données Cloud SQL pour la persistance et Secret Manager pour les données sensibles. |
2025-11-20 |
|
Atelier de programmation
GPU
LLM
|
Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM et le SDK Python OpenAI Cet atelier de programmation explique comment déployer le modèle Gemma 2 2b de Google, ajusté aux instructions, sur Cloud Run avec des GPU, en utilisant vLLM comme moteur d'inférence et le SDK OpenAI pour Python afin d'effectuer la saisie semi-automatique de phrases. |
2025-11-13 |
|
ADK
Agents
Atelier de programmation
|
Déployer, gérer et observer l'agent ADK sur Cloud Run Cet atelier de programmation vous explique comment déployer, gérer et surveiller un agent puissant créé avec l'Agent Development Kit (ADK) sur Cloud Run. |
2025-11-12 |
|
Atelier de programmation
Gemini CLI
MCP
|
Déployer un serveur MCP sécurisé sur Cloud Run Cet atelier de programmation vous explique comment déployer un serveur Model Context Protocol (MCP) sécurisé sur Cloud Run et vous y connecter depuis Gemini CLI. |
2025-10-28 |
|
ADK
Agents
Atelier de programmation
MCP
|
Créer et déployer un agent ADK qui utilise un serveur MCP sur Cloud Run Cet atelier de programmation vous explique comment créer et déployer un agent IA utilisant des outils avec l'Agent Development Kit (ADK). L'agent se connecte à un serveur MCP distant pour accéder à ses outils et est déployé en tant que conteneur sur Cloud Run. |
2025-10-27 |
|
Modèles d'IA
Jobs Cloud Run
Atelier de programmation
Réglage du modèle
|
Affiner un LLM à l'aide de tâches Cloud Run Cet atelier de programmation fournit un guide pas à pas sur l'utilisation de Cloud Run Jobs avec des GPU pour affiner un modèle Gemma 3 sur l'ensemble de données Text2Emoji, puis diffuser le modèle obtenu sur un service Cloud Run avec vLLM. |
2025-10-21 |
|
Inférence par lot
Jobs Cloud Run
Atelier de programmation
|
Exécuter l'inférence par lot sur les jobs Cloud Run Cet atelier de programmation explique comment utiliser un job Cloud Run optimisé par GPU pour exécuter l'inférence par lot sur un modèle Llama 3.2-1b et écrire les résultats directement dans un bucket Cloud Storage. |
2025-10-21 |
|
ADK
Agents
Atelier de programmation
GPU
LLM
MCP
|
Atelier 3 : Du prototype à la production – Déployer votre agent ADK sur Cloud Run avec GPU Cet atelier de programmation explique comment déployer un agent ADK (Agent Development Kit) prêt pour la production avec un backend Gemma accéléré par GPU sur Cloud Run. L'atelier de programmation couvre le déploiement, l'intégration et les tests de performances. |
2025-10-03 |
|
Agents
Atelier de programmation
|
Cet atelier de programmation explique comment déployer une application à deux niveaux sur Cloud Run, composée d'un frontend Gradio et d'un backend d'agent ADK, en mettant l'accent sur l'implémentation d'une communication sécurisée et authentifiée entre les services. |
2025-09-29 |
|
Atelier de programmation
Gemini
|
Déployer une application de chatbot FastAPI sur Cloud Run à l'aide de Gemini Cet atelier de programmation vous explique comment déployer une application de chatbot FastAPI sur Cloud Run. |
2025-04-02 |
|
Cloud Run Functions
Atelier de programmation
LLM
|
Héberger un LLM dans un side-car pour une fonction Cloud Run Cet atelier de programmation vous explique comment héberger un modèle gemma3:4b dans un side-car pour une fonction Cloud Run. |
2025-03-27 |
|
Communauté
Sécurité
|
Appeler votre service Cloud Run de manière sécurisée, où que vous soyez Cet article fournit un exemple de code Python qui permet d'obtenir un jeton d'identité pour appeler de manière sécurisée un service Cloud Run authentifié depuis n'importe quel environnement. L'exemple utilise les identifiants par défaut de l'application (ADC) pour authentifier l'appel. |
2025-10-15 |
|
Modèles d'IA
Communauté
RAG
|
IA sans serveur : intégrer Gemma avec Cloud Run Cet article fournit un guide pas à pas sur la façon de conteneuriser et de déployer le modèle EmbeddingGemma sur Cloud Run avec des GPU, puis de l'utiliser pour créer une application RAG. |
2025-09-24 |
|
Communauté
Sécurité
|
Chaîne de confiance pour l'IA : sécuriser l'architecture MCP Toolbox sur Cloud Run Cet article décompose une application de réservation d'hôtel simple conçue sur Google Cloud. Il présente un modèle de sécurité robuste et zéro confiance utilisant des identités de service, et montre comment une chaîne de confiance sécurisée est établie de l'utilisateur final à la base de données. |
03/09/2025 |
|
Modèles d'IA
Communauté
Conteneurisation
Docker
Ollama
RAG
|
IA sans serveur : embeddings Qwen3 avec Cloud Run Cet article fournit un tutoriel sur le déploiement du modèle d'embedding Qwen3 sur Cloud Run avec des GPU. L'article aborde également la conteneurisation avec Docker et Ollama, et fournit un exemple d'utilisation dans une application RAG. |
2025-08-20 |
|
Architecture
Communauté
LLM
|
Vous empaquetez toujours les modèles d'IA dans des conteneurs ? Faites plutôt ceci sur Cloud Run Cet article préconise une architecture plus efficace et évolutive pour diffuser des grands modèles de langage (LLM) sur Cloud Run en dissociant les fichiers de modèle du conteneur d'application et en utilisant plutôt Cloud Storage FUSE. |
2025-08-11 |
|
Modèles d'IA
Communauté
|
Créer un générateur de podcasts optimisé par l'IA avec Gemini et Cloud Run Cet article explique en détail comment créer un générateur de podcasts sans serveur optimisé par l'IA qui utilise Gemini pour résumer le contenu et Cloud Run. L'exemple orchestre le pipeline automatisé pour générer et diffuser des briefings audio quotidiens à partir de flux RSS. |
2025-08-11 |
|
Communauté
MCP
|
Alimenter vos serveurs MCP avec Google Cloud Run Cet article explique l'objectif du protocole MCP (Model Context Protocol) et fournit un tutoriel sur la façon de créer et de déployer un serveur MCP sur Cloud Run pour exposer des ressources en tant qu'outils pour les applications d'IA. |
2025-07-09 |
|
Communauté
Modèles de ML
Surveillance
|
Déployer et surveiller des modèles de ML avec Cloud Run : léger, évolutif et économique Cet article explique comment déployer, surveiller et mettre à l'échelle automatiquement un modèle de machine learning sur Cloud Run, en utilisant une pile de surveillance légère avec les services Google Cloud pour suivre les performances et contrôler les coûts. |
2025-05-29 |
|
Modèles d'IA
AI Studio
Communauté
LLM
|
Déployer Gemma directement depuis AI Studio vers Cloud Run Cet article fournit un tutoriel détaillé sur la façon de prendre un modèle Gemma depuis AI Studio, d'adapter son code pour la production et de le déployer en tant qu'application Web conteneurisée sur Cloud Run. |
2025-05-29 |
|
ADK
Agents
Communauté
MCP
|
La triade de l'architecture d'agent : ADK, MCP et Cloud Run Cet article explique comment créer une architecture agentique d'IA en configurant un workflow Agent Development Kit (ADK) qui communique avec un serveur Model Context Protocol (MCP) hébergé sur Cloud Run pour gérer les réservations de vols. |
2025-05-27 |
|
A2A
Agents
Communauté
Frameworks
Cas d'utilisation
|
Explorer le protocole Agent2Agent (A2A) avec le cas d'utilisation du concierge d'achat sur Cloud Run Cet article explique le protocole Agent2Agent (A2A) et montre comment l'utiliser avec une application de concierge d'achat. L'application Cloud Run contient plusieurs agents d'IA, conçus avec différents frameworks, qui collaborent entre eux pour traiter la commande d'un utilisateur. |
2025-05-15 |
|
Modèles d'IA
Automatisation
CI/CD
Communauté
GitHub
|
Automatiser le déploiement de modèles de ML avec GitHub Actions et Cloud Run Cet article fournit un guide complet sur la création d'un pipeline CI/CD avec GitHub Actions pour automatiser la compilation et le déploiement de modèles de machine learning en tant que services conteneurisés sur Cloud Run. |
2025-05-08 |
|
Communauté
LLM
Sécurité
|
Créer des solutions d'IA souveraines avec Google Cloud – Cloud Run Cet article vous explique comment créer et déployer une solution d'IA souveraine sur Google Cloud à l'aide des contrôles de souveraineté par les partenaires. Les exemples exécutent un modèle Gemma sur Cloud Run, ce qui garantit la résidence des données et la conformité avec les réglementations européennes. |
2025-04-03 |
|
Communauté
LLM
|
De zéro à Deepseek sur Cloud Run pendant mon trajet du matin Cet article explique comment déployer rapidement le modèle Deepseek R1 sur Cloud Run avec des GPU à l'aide d'Ollama pendant un trajet matinal. Cet article aborde des sujets avancés tels que l'intégration du modèle dans le conteneur, les tests A/B avec répartition du trafic et l'ajout d'une interface utilisateur Web avec un conteneur side-car. |
2025-02-11 |
|
Communauté
LLM
Ollama
|
Exécuter n'importe quel LLM ouvert avec Ollama sur Google Cloud Run [Procédure détaillée] Cet article explique comment héberger n'importe quel LLM ouvert, tel que Gemma 2, sur Google Cloud Run à l'aide d'Ollama. L'article inclut également des instructions pour créer un bucket Cloud Storage afin d'assurer la persistance du modèle et de tester le déploiement. |
2025-01-20 |
|
Communauté
Modèles de ML
|
Cet article fournit un guide pas à pas pour déployer un modèle de machine learning (ML) compatible avec les GPU sur Cloud Run. Cet article aborde tous les aspects, de la configuration du projet et de la conteneurisation au déploiement automatisé avec Cloud Build et aux tests avec curl et JavaScript. |
2025-01-17 |