Cookbook d'IA Cloud Run

Cette page fournit une liste organisée de ressources pour vous aider à créer et à déployer des solutions d'IA sur Cloud Run.

Cloud Run est une plate-forme d'applications entièrement gérée qui vous permet d'exécuter votre code, fonction ou conteneur sur l'infrastructure hautement évolutive de Google. Vous pouvez utiliser Cloud Run pour exécuter diverses solutions d'IA, telles que des points de terminaison d'inférence d'IA, des API de modèles génératifs, des pipelines de génération augmentée par récupération (RAG) entiers, et plus encore.

Utilisez les catégories et les liens ci-dessous pour accéder aux guides officiels, aux démarrages rapides et aux contenus utiles de la communauté. Pour obtenir de la documentation et des recommandations sur Cloud Run, consultez Explorer les solutions d'IA sur Cloud Run.

Remarque sur les ressources de la communauté

Le contenu portant le libellé "Communauté" est une sélection de ressources de la communauté des développeurs. Il n'est pas développé ni géré par Google. Tenez compte des mises en garde suivantes lorsque vous utilisez ces ressources :

  • Audit de sécurité : examinez toujours attentivement tout code, en particulier la façon dont il gère les informations privées, les saisies utilisateur et l'accès au réseau.
  • Obsolescence et mises à jour : le code de la communauté peut devenir obsolète ou cesser de fonctionner avec les nouvelles fonctionnalités Cloud Run ou les nouvelles versions de l'IA sans avertissement. Vérifiez la date de sa dernière mise à jour et si elle est toujours activement gérée.
  • Rentabilité : bien que ces configurations visent souvent à réduire les coûts, elles ne suivent pas forcément les bonnes pratiques de Google pour économiser de l'argent dans les projets en direct. Surveillez attentivement votre facturation.
  • Conformité des licences : assurez-vous de comprendre et de respecter la licence Open Source pour tout code ou bibliothèque de la communauté que vous ajoutez à votre application.
  • Testez avant de déployer : vérifiez tous les paramètres importants et essayez les solutions de la communauté dans un environnement de test avant de les utiliser pour des projets en direct.

Filtrer par catégorie ou par mot clé

Utilisez les filtres ou le champ de recherche pour trouver du contenu par catégorie ou mot clé.


Filtrer par :
Catégories Titre et description Date de publication
Blog
Gemma 3

Exercice pratique avec Gemma 3 sur Google Cloud

Cet article de blog annonce deux ateliers de programmation qui montrent aux développeurs comment déployer Gemma 3 sur Google Cloud en utilisant Cloud Run pour une approche sans serveur ou Google Kubernetes Engine (GKE) pour une approche de plate-forme.

2025-11-17
Blog
Outils

Automatisation simple des workflows d'IA : déployer n8n sur Cloud Run

Cet article de blog explique comment déployer des agents à l'aide de l'outil d'automatisation de workflow n8n sur Cloud Run pour créer des workflows optimisés par l'IA et s'intégrer à des outils tels que Google Workspace.

2025-11-07
Blog
Extensions
Gemini

Automatisez le déploiement d'applications et l'analyse de la sécurité avec les nouvelles extensions de la CLI Gemini

Cet article de blog annonce l'extension Cloud Run dans Gemini CLI pour simplifier le déploiement d'applications avec une seule commande /deploy.

2025-09-10
Blog
Extensions
Gemini

Du localhost au lancement : simplifiez le déploiement d'applications d'IA avec Cloud Run et Docker Compose

Cet article de blog annonce une collaboration entre Google Cloud et Docker qui simplifie le déploiement d'applications d'IA complexes en permettant aux développeurs d'utiliser la commande gcloud run compose up pour déployer leurs fichiers compose.yaml directement sur Cloud Run.

2025-07-10
Blog
MCP

Créer et déployer un serveur MCP distant sur Google Cloud Run en moins de 10 minutes

Cet article de blog fournit un guide détaillé pour créer et déployer un serveur MCP (Model Context Protocol) distant et sécurisé sur Google Cloud Run en moins de 10 minutes à l'aide de FastMCP, puis le tester à partir d'un client local.

2025-06-07
Agents
AI Studio
Blog
MCP

Déploiement d'IA simplifié : déployez votre application sur Cloud Run depuis AI Studio ou des agents d'IA compatibles avec MCP

Cet article de blog présente des méthodes permettant de simplifier les déploiements d'IA grâce au déploiement en un clic d'AI Studio vers Cloud Run, au déploiement direct des modèles Gemma 3 et à un serveur MCP pour les déploiements basés sur des agents.

2025-05-20
Agents
Blog
Cas d'utilisation

Fusion 50 % plus rapide et 50 % moins de bugs : comment CodeRabbit a créé son agent d'analyse de code par IA avec Google Cloud Run

Cet article explique comment CodeRabbit, un outil d'examen de code basé sur l'IA, utilise Cloud Run pour créer une plate-forme évolutive et sécurisée permettant d'exécuter du code non fiable, ce qui permet de réduire de moitié le temps d'examen du code et le nombre de bugs.

2025-04-22
Blog
Vertex AI

Créer des applications d'IA générative partageables en moins de 60 secondes avec Vertex AI et Cloud Run

Cet article présente une fonctionnalité de Vertex AI qui permet de déployer des applications Web sur Cloud Run en un clic. Utilisez des requêtes d'IA générative pour simplifier le processus de transformation d'un concept d'IA générative en prototype partageable.

2025-02-20
Blog
Déploiement

Déployer l'IA sans serveur avec Gemma 3 sur Cloud Run

Cet article de blog annonce Gemma 3, une famille de modèles d'IA ouverts et légers, et explique comment les déployer sur Cloud Run pour des applications d'IA sans serveur évolutives et économiques.

2025-03-12
Blog
GPU
Inférence
RAG
Vertex AI

Débloquez l'inférence en tant que service avec Cloud Run et Vertex AI

Cet article de blog explique comment les développeurs peuvent accélérer le développement d'applications d'IA générative en adoptant un modèle Inference-as-a-Service sur Cloud Run. Cela permet d'héberger et de mettre à l'échelle des LLM avec prise en charge des GPU, et de les intégrer à la génération augmentée par récupération (RAG) pour obtenir des réponses spécifiques au contexte.

2025-02-20
Architecture
RAG
Vertex AI

Infrastructure RAG pour l'IA générative à l'aide de Vertex AI et Vector Search

Ce document présente une architecture de référence pour la création d'une application d'IA générative avec génération augmentée de récupération (RAG) sur Google Cloud, en utilisant la recherche vectorielle pour la mise en correspondance de similarités à grande échelle et Vertex AI pour la gestion des embeddings et des modèles.

2025-03-07
Agents
Antigravity
Vidéo

Arrêtez de coder, commencez à concevoir des architectures : Google Antigravity + Cloud Run

Cette vidéo présente Antigravity, l'IDE agentique de Google. Utilisez-le pour créer et déployer une application Full Stack sur Cloud Run à partir de zéro. Regardez cette vidéo pour écrire une fiche technique pour l'IA, la forcer à utiliser Node.js moderne (sans étapes de compilation !), et la voir déboguer de manière autonome une incompatibilité de port lors du déploiement en modifiant un fichier de configuration.

2025-12-08
Agents
GPU
Ollama
Vidéo

Cet agent d'IA s'exécute sur Cloud Run et des GPU NVIDIA

Cette vidéo explique comment créer une application d'agent d'IA réelle sur un GPU NVIDIA sans serveur. Découvrez une démonstration d'un agent de santé intelligent qui utilise des modèles Open Source tels que Gemma avec Ollama sur Cloud Run, et LangGraph pour créer un workflow multi-agents (RAG + outils).

2025-11-13
MCP
Vidéo

Optimisez vos agents IA avec les outils MCP sur Google Cloud Run

Cette vidéo présente le protocole MCP (Model Context Protocol) et explique comment il facilite la vie des développeurs d'agents d'IA. Découvrez comment créer un serveur MCP à l'aide de FastMCP et déployer un agent ADK sur Cloud Run. Découvrez comment le code gère l'authentification de service à service à l'aide des jetons OIDC intégrés de Cloud Run.

2025-11-06
Model Armor
Sécurité
Vidéo

Nous avons essayé de jailbreaker notre IA (et Model Armor l'a empêché)

Cette vidéo montre un exemple d'utilisation de Model Armor de Google pour bloquer les menaces avec un appel d'API.

2025-10-30
Benchmarking
Vertex AI
Vidéo

Ne devinez pas : comment évaluer vos requêtes d'IA

Cette vidéo explique comment utiliser Vertex AI pour créer des applications d'IA générative fiables à l'aide des outils Google Cloud. Les développeurs apprendront à utiliser les outils Google Cloud pour le prototypage rapide, à obtenir des chiffres précis grâce à des benchmarks basés sur les données et, enfin, à créer un pipeline CI/CD automatisé pour un véritable contrôle qualité, tout en évitant les pièges courants.

2025-10-23
ADK
Multi-agent
Vidéo

Créer une application multi-agents avec ADK et Gemini

Cette vidéo montre comment créer une application à l'aide de l'ADK (Agent Development Toolkit) de Google, qui vous aide à affiner du contenu et à collaborer dessus. Découvrez pourquoi les multi-agents avec état fonctionnent mieux qu'un seul agent.

2025-10-16
Gemini
Vidéo

Créer une application d'IA qui regarde des vidéos à l'aide de Gemini

Cette vidéo montre comment créer une application qui regarde et comprend des vidéos YouTube à l'aide de Gemini 2.5 Pro. Utilisez des requêtes intelligentes pour personnaliser le contenu généré par votre application pour les articles de blog, les résumés, les quiz et plus encore. Cette vidéo explique comment intégrer Gemini pour générer du contenu textuel et des images d'en-tête à partir d'entrées vidéo, aborde les considérations liées aux coûts et explique comment gérer les vidéos plus longues avec des requêtes par lot.

2025-10-06
GenAI
Vidéo

Créons une application d'IA générative sur Cloud Run

Cette vidéo vous présente l'architecture et le code, en utilisant l'IA pour vous aider à chaque étape.

2025-07-17
Agents
Firebase
Vidéo

Créer des agents d'IA avec Cloud Run et Firebase Genkit

Cette vidéo explique comment créer des agents d'IA avec Cloud Run et Firebase Genkit, un outil de création d'agents d'IA sans serveur.

2025-07-10
AI Studio
Firebase
Gemini
LLM
Vidéo

Cloud AI : une simple API

Cette vidéo montre comment créer rapidement une application d'assistance technique à l'aide d'AI Studio, de Cloud Functions et de Firebase Hosting. Découvrez comment exploiter les grands modèles de langage (LLM) et consultez un exemple pratique d'intégration de l'IA dans une application Web traditionnelle.

2025-06-19
ADK
Agents
Frameworks
LangGraph
Vertex AI
Vidéo

Créer des agents d'IA sur Google Cloud

Cette vidéo explique comment créer et déployer des agents d'IA à l'aide de Cloud Run et Vertex AI. Découvrez des concepts clés tels que l'appel d'outils, l'agnosticisme des modèles et l'utilisation de frameworks tels que LangGraph et l'Agent Development Kit (ADK).

2025-05-21
Modèles d'IA
GPU
Ollama
Vidéo

Découvrez comment héberger DeepSeek avec des GPU Cloud Run en trois étapes

Cette vidéo montre comment simplifier l'hébergement du modèle d'IA DeepSeek avec les GPU Cloud Run. Découvrez comment déployer et gérer des grands modèles de langage (LLM) sur Google Cloud en trois commandes. Regardez et découvrez les fonctionnalités de Cloud Run et de l'outil de ligne de commande Ollama, qui permettent aux développeurs d'exploiter rapidement des applications d'IA avec une allocation et un scaling des ressources à la demande.

2025-04-24
Appel de fonction
Gemini
Vidéo

Utiliser l'appel de fonction Gemini avec Cloud Run

Cette vidéo explore la puissance de l'appel de fonction Gemini et explique comment intégrer des API externes à vos applications d'IA. Créez une application météo qui exploite la compréhension du langage naturel de Gemini pour traiter les requêtes des utilisateurs et extraire les données météo d'une API externe. Vous obtiendrez ainsi un exemple pratique d'appel de fonction en action.

2025-01-23
Génération d'images
Vertex AI
Vidéo

Générer des images à partir de texte avec Vertex AI sur Cloud Run

Cette vidéo montre comment créer une application de génération d'images à l'aide de Vertex AI sur Google Cloud. Avec le modèle de génération d'images Vertex AI, les développeurs peuvent créer des visuels époustouflants sans avoir besoin d'une infrastructure ou d'une gestion de modèle complexes.

2025-01-16
GPU
Ollama
Vidéo

Ollama et Cloud Run avec GPU

Cette vidéo explique comment utiliser Ollama pour déployer facilement de grands modèles de langage sur Cloud Run avec des GPU, afin de déployer des modèles d'IA évolutifs et efficaces dans le cloud.

2024-12-02
Protection des données
Sécurité
Vidéo

Protéger les données sensibles dans les applications d'IA

Cette vidéo explique comment protéger les données sensibles dans les applications d'IA. Découvrez les concepts clés, les bonnes pratiques et les outils permettant de protéger les données tout au long du cycle de vie de l'IA.

2024-11-21
LangChain
RAG
Vidéo

RAG avec LangChain sur Google Cloud

Cette vidéo explique comment améliorer la précision de vos applications d'IA à l'aide de la génération augmentée par récupération (RAG). Créez une application Web qui exploite la puissance du RAG avec LangChain, une technique qui rend les réponses de l'IA plus précises.

2024-11-07
Grande fenêtre de requête
Réglage du modèle
RAG
Vidéo

RAG vs réglage du modèle vs grande fenêtre d'invite

Cette vidéo présente les trois principales méthodes d'intégration de vos données dans les applications d'IA : les requêtes avec de longues fenêtres de contexte, la génération augmentée par récupération (RAG) et l'ajustement de modèle. Découvrez les points forts, les limites et les cas d'utilisation idéaux de chaque approche pour prendre des décisions éclairées concernant vos projets d'IA dans cet épisode de Serverless Expeditions.

2024-11-14
Ingénierie des requêtes
Vidéo

Ingénierie des requêtes pour les développeurs

Cette vidéo explique comment utiliser le prompt engineering pour améliorer la qualité des réponses de l'IA. Regardez la vidéo pour découvrir comment obtenir des réponses plus précises et pertinentes de l'IA générative grâce aux techniques de requête en chaîne de pensée, few-shot et multi-shot.

2024-10-31
Modèles d'IA
GPU
LLM
Vidéo

Déployer un LLM basé sur GPU sur Cloud Run

Cette vidéo explique comment déployer votre propre grand modèle de langage (LLM) basé sur GPU sur Cloud Run. Cette vidéo explique comment prendre un modèle Open Source comme Gemma et le déployer en tant que service évolutif sans serveur avec accélération GPU.

2024-10-06
GPU
LLM
Ollama
Vidéo

Utiliser des GPU dans Cloud Run

Cette vidéo montre comment déployer Gemma 2 de Google, un grand modèle de langage Open Source, via Ollama sur Cloud Run.

2024-10-03
Gemini
LLM
Vidéo

Créer des applications de chat optimisées par l'IA dans Google Cloud

Cette vidéo montre comment créer une application de chat basée sur un grand modèle de langage (LLM) sur Gemini.

2024-08-29
Multimodal
Vertex AI
Vidéo

IA multimodale

Cette vidéo montre comment utiliser Vertex AI pour créer une application multimodale qui traite la vidéo, l'audio et le texte pour créer une sortie.

2024-08-15
Modèles d'IA
Vertex AI
Vidéo

Utiliser l'IA générative sans serveur | Google Vertex AI

Cette vidéo montre comment créer et déployer des applications d'IA générative ultra-rapides à l'aide de Vertex AI Studio, de Cloud Run et de modèles d'IA générative.

2024-02-22
Atelier de programmation
Outils

Déployer et exécuter n8n sur Google Cloud Run

Cet atelier de programmation explique comment déployer une instance prête pour la production de l'outil d'automatisation de workflow n8n sur Cloud Run, avec une base de données Cloud SQL pour la persistance et Secret Manager pour les données sensibles.

2025-11-20
Atelier de programmation
GPU
LLM

Exécuter l'inférence LLM sur les GPU Cloud Run avec vLLM et le SDK Python OpenAI

Cet atelier de programmation explique comment déployer le modèle Gemma 2 2b de Google, ajusté aux instructions, sur Cloud Run avec des GPU, en utilisant vLLM comme moteur d'inférence et le SDK OpenAI pour Python afin d'effectuer la saisie semi-automatique de phrases.

2025-11-13
ADK
Agents
Atelier de programmation

Déployer, gérer et observer l'agent ADK sur Cloud Run

Cet atelier de programmation vous explique comment déployer, gérer et surveiller un agent puissant créé avec l'Agent Development Kit (ADK) sur Cloud Run.

2025-11-12
Atelier de programmation
Gemini CLI
MCP

Déployer un serveur MCP sécurisé sur Cloud Run

Cet atelier de programmation vous explique comment déployer un serveur Model Context Protocol (MCP) sécurisé sur Cloud Run et vous y connecter depuis Gemini CLI.

2025-10-28
ADK
Agents
Atelier de programmation
MCP

Créer et déployer un agent ADK qui utilise un serveur MCP sur Cloud Run

Cet atelier de programmation vous explique comment créer et déployer un agent IA utilisant des outils avec l'Agent Development Kit (ADK). L'agent se connecte à un serveur MCP distant pour accéder à ses outils et est déployé en tant que conteneur sur Cloud Run.

2025-10-27
Modèles d'IA
Jobs Cloud Run
Atelier de programmation
Réglage du modèle

Affiner un LLM à l'aide de tâches Cloud Run

Cet atelier de programmation fournit un guide pas à pas sur l'utilisation de Cloud Run Jobs avec des GPU pour affiner un modèle Gemma 3 sur l'ensemble de données Text2Emoji, puis diffuser le modèle obtenu sur un service Cloud Run avec vLLM.

2025-10-21
Inférence par lot
Jobs Cloud Run
Atelier de programmation

Exécuter l'inférence par lot sur les jobs Cloud Run

Cet atelier de programmation explique comment utiliser un job Cloud Run optimisé par GPU pour exécuter l'inférence par lot sur un modèle Llama 3.2-1b et écrire les résultats directement dans un bucket Cloud Storage.

2025-10-21
ADK
Agents
Atelier de programmation
GPU
LLM
MCP

Atelier 3 : Du prototype à la production – Déployer votre agent ADK sur Cloud Run avec GPU

Cet atelier de programmation explique comment déployer un agent ADK (Agent Development Kit) prêt pour la production avec un backend Gemma accéléré par GPU sur Cloud Run. L'atelier de programmation couvre le déploiement, l'intégration et les tests de performances.

2025-10-03
Agents
Atelier de programmation

Déployer une application frontend Gradio qui appelle un agent ADK de backend, tous deux exécutés sur Cloud Run

Cet atelier de programmation explique comment déployer une application à deux niveaux sur Cloud Run, composée d'un frontend Gradio et d'un backend d'agent ADK, en mettant l'accent sur l'implémentation d'une communication sécurisée et authentifiée entre les services.

2025-09-29
Atelier de programmation
Gemini

Déployer une application de chatbot FastAPI sur Cloud Run à l'aide de Gemini

Cet atelier de programmation vous explique comment déployer une application de chatbot FastAPI sur Cloud Run.

2025-04-02
Cloud Run Functions
Atelier de programmation
LLM

Héberger un LLM dans un side-car pour une fonction Cloud Run

Cet atelier de programmation vous explique comment héberger un modèle gemma3:4b dans un side-car pour une fonction Cloud Run.

2025-03-27
Communauté
Sécurité

Appeler votre service Cloud Run de manière sécurisée, où que vous soyez

Cet article fournit un exemple de code Python qui permet d'obtenir un jeton d'identité pour appeler de manière sécurisée un service Cloud Run authentifié depuis n'importe quel environnement. L'exemple utilise les identifiants par défaut de l'application (ADC) pour authentifier l'appel.

2025-10-15
Modèles d'IA
Communauté
RAG

IA sans serveur : intégrer Gemma avec Cloud Run

Cet article fournit un guide pas à pas sur la façon de conteneuriser et de déployer le modèle EmbeddingGemma sur Cloud Run avec des GPU, puis de l'utiliser pour créer une application RAG.

2025-09-24
Communauté
Sécurité

Chaîne de confiance pour l'IA : sécuriser l'architecture MCP Toolbox sur Cloud Run

Cet article décompose une application de réservation d'hôtel simple conçue sur Google Cloud. Il présente un modèle de sécurité robuste et zéro confiance utilisant des identités de service, et montre comment une chaîne de confiance sécurisée est établie de l'utilisateur final à la base de données.

03/09/2025
Modèles d'IA
Communauté
Conteneurisation
Docker
Ollama
RAG

IA sans serveur : embeddings Qwen3 avec Cloud Run

Cet article fournit un tutoriel sur le déploiement du modèle d'embedding Qwen3 sur Cloud Run avec des GPU. L'article aborde également la conteneurisation avec Docker et Ollama, et fournit un exemple d'utilisation dans une application RAG.

2025-08-20
Architecture
Communauté
LLM

Vous empaquetez toujours les modèles d'IA dans des conteneurs ? Faites plutôt ceci sur Cloud Run

Cet article préconise une architecture plus efficace et évolutive pour diffuser des grands modèles de langage (LLM) sur Cloud Run en dissociant les fichiers de modèle du conteneur d'application et en utilisant plutôt Cloud Storage FUSE.

2025-08-11
Modèles d'IA
Communauté

Créer un générateur de podcasts optimisé par l'IA avec Gemini et Cloud Run

Cet article explique en détail comment créer un générateur de podcasts sans serveur optimisé par l'IA qui utilise Gemini pour résumer le contenu et Cloud Run. L'exemple orchestre le pipeline automatisé pour générer et diffuser des briefings audio quotidiens à partir de flux RSS.

2025-08-11
Communauté
MCP

Alimenter vos serveurs MCP avec Google Cloud Run

Cet article explique l'objectif du protocole MCP (Model Context Protocol) et fournit un tutoriel sur la façon de créer et de déployer un serveur MCP sur Cloud Run pour exposer des ressources en tant qu'outils pour les applications d'IA.

2025-07-09
Communauté
Modèles de ML
Surveillance

Déployer et surveiller des modèles de ML avec Cloud Run : léger, évolutif et économique

Cet article explique comment déployer, surveiller et mettre à l'échelle automatiquement un modèle de machine learning sur Cloud Run, en utilisant une pile de surveillance légère avec les services Google Cloud pour suivre les performances et contrôler les coûts.

2025-05-29
Modèles d'IA
AI Studio
Communauté
LLM

Déployer Gemma directement depuis AI Studio vers Cloud Run

Cet article fournit un tutoriel détaillé sur la façon de prendre un modèle Gemma depuis AI Studio, d'adapter son code pour la production et de le déployer en tant qu'application Web conteneurisée sur Cloud Run.

2025-05-29
ADK
Agents
Communauté
MCP

La triade de l'architecture d'agent : ADK, MCP et Cloud Run

Cet article explique comment créer une architecture agentique d'IA en configurant un workflow Agent Development Kit (ADK) qui communique avec un serveur Model Context Protocol (MCP) hébergé sur Cloud Run pour gérer les réservations de vols.

2025-05-27
A2A
Agents
Communauté
Frameworks
Cas d'utilisation

Explorer le protocole Agent2Agent (A2A) avec le cas d'utilisation du concierge d'achat sur Cloud Run

Cet article explique le protocole Agent2Agent (A2A) et montre comment l'utiliser avec une application de concierge d'achat. L'application Cloud Run contient plusieurs agents d'IA, conçus avec différents frameworks, qui collaborent entre eux pour traiter la commande d'un utilisateur.

2025-05-15
Modèles d'IA
Automatisation
CI/CD
Communauté
GitHub

Automatiser le déploiement de modèles de ML avec GitHub Actions et Cloud Run

Cet article fournit un guide complet sur la création d'un pipeline CI/CD avec GitHub Actions pour automatiser la compilation et le déploiement de modèles de machine learning en tant que services conteneurisés sur Cloud Run.

2025-05-08
Communauté
LLM
Sécurité

Créer des solutions d'IA souveraines avec Google Cloud – Cloud Run

Cet article vous explique comment créer et déployer une solution d'IA souveraine sur Google Cloud à l'aide des contrôles de souveraineté par les partenaires. Les exemples exécutent un modèle Gemma sur Cloud Run, ce qui garantit la résidence des données et la conformité avec les réglementations européennes.

2025-04-03
Communauté
LLM

De zéro à Deepseek sur Cloud Run pendant mon trajet du matin

Cet article explique comment déployer rapidement le modèle Deepseek R1 sur Cloud Run avec des GPU à l'aide d'Ollama pendant un trajet matinal. Cet article aborde des sujets avancés tels que l'intégration du modèle dans le conteneur, les tests A/B avec répartition du trafic et l'ajout d'une interface utilisateur Web avec un conteneur side-car.

2025-02-11
Communauté
LLM
Ollama

Exécuter n'importe quel LLM ouvert avec Ollama sur Google Cloud Run [Procédure détaillée]

Cet article explique comment héberger n'importe quel LLM ouvert, tel que Gemma 2, sur Google Cloud Run à l'aide d'Ollama. L'article inclut également des instructions pour créer un bucket Cloud Storage afin d'assurer la persistance du modèle et de tester le déploiement.

2025-01-20
Communauté
Modèles de ML

Déployer des modèles de machine learning sans serveur avec des GPU à l'aide de Google Cloud : Cloud Run

Cet article fournit un guide pas à pas pour déployer un modèle de machine learning (ML) compatible avec les GPU sur Cloud Run. Cet article aborde tous les aspects, de la configuration du projet et de la conteneurisation au déploiement automatisé avec Cloud Build et aux tests avec curl et JavaScript.

2025-01-17