Questa pagina fornisce un elenco selezionato di risorse per aiutarti a creare ed eseguire il deployment di soluzioni di AI su Cloud Run.
Cloud Run è una piattaforma di applicazioni completamente gestita per eseguire codice, funzioni o container sull'infrastruttura ad alta scalabilità di Google. Puoi utilizzare Cloud Run per eseguire varie soluzioni di AI, come endpoint di inferenza AI, API di modelli generativi, intere pipeline di Retrieval-Augmented Generation (RAG) e altro ancora.
Utilizza le categorie e i link di seguito per consultare guide ufficiali, guide rapide e contenuti preziosi della community. Per la documentazione e i consigli di Cloud Run, consulta Esplorare le soluzioni AI su Cloud Run.
Una nota sulle risorse della community
I contenuti etichettati come "Community" sono risorse selezionate della community di sviluppatori e non sono sviluppati o gestiti da Google. Tieni presente questi avvisi quando utilizzi queste risorse:
- Audit di sicurezza: esamina sempre attentamente il codice, in particolare il modo in cui gestisce le informazioni private, l'input utente e l'accesso alla rete.
- Ritiro e aggiornamenti:il codice della community potrebbe diventare obsoleto o smettere di funzionare con le nuove funzionalità di Cloud Run o versioni dell'AI senza preavviso. Controlla la data dell'ultimo aggiornamento e se è ancora gestito attivamente.
- Efficienza dei costi:anche se queste configurazioni spesso mirano a costi contenuti, potrebbero non seguire le best practice di Google per risparmiare denaro nei progetti live. Monitora attentamente la fatturazione.
- Conformità alle licenze:assicurati di comprendere e rispettare la licenza open source per qualsiasi codice o libreria della community che aggiungi alla tua applicazione.
- Testa prima del deployment:verifica tutte le impostazioni importanti e prova le soluzioni della community in un ambiente di test prima di utilizzarle per progetti live.
Filtrare per categoria o parola chiave
Utilizza i filtri o la casella di ricerca per trovare contenuti per categoria o parola chiave.
| Categorie | Titolo e descrizione | Data di pubblicazione |
|---|---|---|
|
Blog
Gemma 3
|
Prova pratica di Gemma 3 su Google Cloud Questo post del blog annuncia due codelab che mostrano agli sviluppatori come eseguire il deployment di Gemma 3 su Google Cloud utilizzando Cloud Run per un approccio serverless o Google Kubernetes Engine (GKE) per un approccio basato sulla piattaforma. |
2025-11-17 |
|
Blog
Strumenti
|
Automazione semplice del flusso di lavoro AI: esegui il deployment di n8n su Cloud Run Questo post del blog spiega come eseguire il deployment di agenti utilizzando lo strumento di automazione del flusso di lavoro n8n su Cloud Run per creare workflow basati sull'AI e integrarsi con strumenti come Google Workspace. |
2025-11-07 |
|
Blog
Estensioni
Gemini
|
Questo post del blog annuncia l'estensione Cloud Run in Gemini CLI per semplificare il deployment delle applicazioni con un singolo comando /deploy. |
2025-09-10 |
|
Blog
Estensioni
Gemini
|
Da localhost al lancio: semplifica il deployment delle app di AI con Cloud Run e Docker Compose Questo post del blog annuncia una collaborazione tra Google Cloud e Docker che semplifica il deployment di applicazioni AI complesse consentendo agli sviluppatori di utilizzare il comando gcloud run compose up per eseguire il deployment dei file compose.yaml direttamente in Cloud Run. |
2025-07-10 |
|
Blog
MCP
|
Crea ed esegui il deployment di un server MCP remoto su Google Cloud Run in meno di 10 minuti Questo post del blog fornisce una guida passo passo per creare ed eseguire il deployment di un server MCP (Model Context Protocol) remoto sicuro su Google Cloud Run in meno di 10 minuti utilizzando FastMCP e quindi testarlo da un client locale. |
2025-06-07 |
|
Agenti
AI Studio
Blog
MCP
|
Questo post del blog introduce modi per semplificare i deployment di AI con il deployment con un clic da AI Studio a Cloud Run, il deployment diretto dei modelli Gemma 3 e un server MCP per i deployment basati su agenti. |
2025-05-20 |
|
Agenti
Blog
Casi d'uso
|
Questo articolo mostra come CodeRabbit, uno strumento di revisione del codice basato sull'AI, utilizza Cloud Run per creare una piattaforma scalabile e sicura per l'esecuzione di codice non attendibile, riducendo così a metà il tempo di revisione del codice e i bug. |
2025-04-22 |
|
Blog
Vertex AI
|
Crea app di AI generativa condivisibili in meno di 60 secondi con Vertex AI e Cloud Run Questo articolo introduce una funzionalità di Vertex AI che consente il deployment con un solo clic di applicazioni web su Cloud Run. Utilizza i prompt dell'AI generativa per semplificare il processo di trasformazione di un concetto di AI generativa in un prototipo condivisibile. |
2025-02-20 |
|
Blog
Deployment
|
Come eseguire il deployment dell'AI serverless con Gemma 3 su Cloud Run Questo post del blog annuncia Gemma 3, una famiglia di modelli di AI aperti e leggeri, e spiega come eseguirne il deployment su Cloud Run per applicazioni di AI serverless scalabili ed economiche. |
2025-03-12 |
|
Blog
GPU
Inferenza
RAG
Vertex AI
|
Sfrutta l'inferenza come servizio con Cloud Run e Vertex AI Questo post del blog spiega come gli sviluppatori possono accelerare lo sviluppo di applicazioni di AI generativa adottando un modello Inference-as-a-Service su Cloud Run. Ciò consente l'hosting e lo scaling degli LLM con supporto GPU e la loro integrazione con la Retrieval-Augmented Generation (RAG) per risposte specifiche per il contesto. |
2025-02-20 |
|
Architettura
RAG
Vertex AI
|
Infrastruttura RAG per l'AI generativa utilizzando Vertex AI e Vector Search Questo documento presenta un'architettura di riferimento per la creazione di un'applicazione di AI generativa con Retrieval-Augmented Generation (RAG) su Google Cloud, utilizzando Vector Search per la corrispondenza di somiglianza su larga scala e Vertex AI per la gestione di incorporamenti e modelli. |
2025-03-07 |
|
Agenti
Antigravity
Video
|
Stop coding, start architecting: Google Antigravity + Cloud Run Questo video presenta l'IDE agentico di Google, Antigravity. Utilizzalo per creare ed eseguire il deployment di un'app full-stack in Cloud Run da zero. Guarda questo video per scrivere una scheda tecnica per l'AI, forzarla a utilizzare Node.js moderno (senza passaggi di build) e guardala eseguire il debug autonomo di una mancata corrispondenza della porta durante il deployment toccando un file di configurazione. |
08/12/2025 |
|
Agenti
GPU
Ollama
Video
|
Questo agente AI viene eseguito su Cloud Run + GPU NVIDIA Questo video mostra come creare un'applicazione di agente AI reale su una GPU NVIDIA serverless. Guarda una demo di un agente sanitario intelligente che utilizza modelli open source come Gemma con Ollama su Cloud Run e LangGraph per creare un flusso di lavoro multi-agente (RAG + strumenti). |
2025-11-13 |
|
MCP
Video
|
Potenzia i tuoi agenti AI con gli strumenti MCP su Google Cloud Run Questo video introduce MCP (Model Context Protocol) e spiega in che modo semplifica la vita degli sviluppatori di agenti AI. Scopri come creare un server MCP utilizzando FastMCP ed eseguire il deployment di un agente ADK su Cloud Run. Scopri come il codice gestisce l'autenticazione da servizio a servizio utilizzando i token OIDC integrati di Cloud Run. |
2025-11-06 |
|
Model Armor
Sicurezza
Video
|
Abbiamo provato a eseguire il jailbreak della nostra AI (e Model Armor l'ha impedito) Questo video mostra un esempio di utilizzo di Model Armor di Google per bloccare le minacce con una chiamata API. |
30/10/2025 |
|
Benchmarking
Vertex AI
Video
|
Non indovinare: come fare il benchmarking dei prompt di AI Questo video mostra come utilizzare Vertex AI per creare applicazioni di AI generativa affidabili utilizzando gli strumenti di Google Cloud. Gli sviluppatori impareranno a utilizzare gli strumenti Google Cloud per la prototipazione rapida, a ottenere numeri precisi con il benchmarking basato sui dati e, infine, a creare una pipeline CI/CD automatizzata per un vero controllo qualità, evitando al contempo le insidie più comuni. |
2025-10-23 |
|
ADK
Multi-agent
Video
|
Come creare un'app multi-agente con ADK e Gemini Questo video mostra come creare un'app utilizzando l'ADK (Agent Development Toolkit) di Google che ti aiuta a perfezionare i contenuti e a collaborare. Scopri come gli agenti multi-stato funzionano meglio di un singolo agente. |
2025-10-16 |
|
Gemini
Video
|
Crea un'app AI che guarda i video utilizzando Gemini Questo video mostra come creare un'app che guarda e comprende i video di YouTube utilizzando Gemini 2.5 Pro. Utilizza i prompt intelligenti per personalizzare l'output dell'app per post del blog, riepiloghi, quiz e altro ancora. Questo video spiega come integrare Gemini per generare contenuti di testo e immagini di intestazione dall'input video, illustra le considerazioni sui costi e spiega come gestire video più lunghi con richieste batch. |
2025-10-06 |
|
GenAI
Video
|
Creiamo un'app di AI generativa su Cloud Run Questo video illustra l'architettura e il codice, utilizzando l'AI per aiutarti in ogni passaggio. |
2025-07-17 |
|
Agenti
Firebase
Video
|
Crea agenti AI con Cloud Run e Firebase Genkit Questo video mostra come creare agenti AI con Cloud Run e Firebase Genkit, uno strumento di creazione di agenti AI serverless. |
2025-07-10 |
|
AI Studio
Firebase
Gemini
LLM
Video
|
Questo video fornisce una demo su come creare rapidamente un'applicazione di assistenza tecnica utilizzando AI Studio, Cloud Functions e Firebase Hosting. Scopri come sfruttare i modelli linguistici di grandi dimensioni (LLM) e guarda un esempio pratico di integrazione dell'AI in un'applicazione web tradizionale. |
2025-06-19 |
|
ADK
Agenti
Framework
LangGraph
Vertex AI
Video
|
Creazione di agenti AI su Google Cloud Questo video mostra come creare ed eseguire il deployment di agenti di AI utilizzando Cloud Run e Vertex AI. Esplora concetti chiave come la chiamata di strumenti, l'agnosticismo del modello e l'utilizzo di framework come LangGraph e Agent Development Kit (ADK). |
2025-05-21 |
|
Modelli di AI
GPU
Ollama
Video
|
Come ospitare DeepSeek con le GPU Cloud Run in 3 passaggi Questo video mostra come semplificare l'hosting del modello DeepSeek AI con le GPU Cloud Run. Scopri come eseguire il deployment e gestire modelli linguistici di grandi dimensioni (LLM) su Google Cloud con tre comandi. Guarda il video e scopri le funzionalità di Cloud Run e dello strumento a riga di comando Ollama, che consentono agli sviluppatori di gestire rapidamente le applicazioni di AI con l'allocazione e lo scaling delle risorse on demand. |
2025-04-24 |
|
Chiamata di funzione
Gemini
Video
|
Come utilizzare la chiamata di funzione di Gemini con Cloud Run Questo video esplora la potenza della chiamata di funzione di Gemini e spiega come integrare API esterne nelle tue applicazioni di AI. Crea un'app meteo che sfrutti la comprensione del linguaggio naturale di Gemini per elaborare le richieste degli utenti e recuperare i dati meteo da un'API esterna, fornendo un esempio pratico di chiamate di funzione in azione. |
2025-01-23 |
|
Generazione di immagini
Vertex AI
Video
|
Da testo a immagine con Vertex AI di Google Cloud su Cloud Run Questo video mostra come creare un'app di generazione di immagini utilizzando Vertex AI su Google Cloud. Con il modello di generazione di immagini Vertex AI, gli sviluppatori possono creare immagini straordinarie senza la necessità di infrastrutture complesse o gestione dei modelli. |
2025-01-16 |
|
GPU
Ollama
Video
|
Questo video spiega come utilizzare Ollama per eseguire facilmente il deployment di modelli linguistici di grandi dimensioni su Cloud Run con GPU per un deployment scalabile ed efficiente dei modelli di AI nel cloud. |
2024-12-02 |
|
Protezione dei dati
Sicurezza
Video
|
Protezione dei dati sensibili nelle app di AI Questo video mostra come proteggere i dati sensibili nelle applicazioni AI. Esplora concetti chiave, best practice e strumenti per proteggere i dati durante l'intero ciclo di vita dell'AI. |
2024-11-21 |
|
LangChain
RAG
Video
|
RAG con LangChain su Google Cloud Questo video mostra come migliorare l'accuratezza delle tue applicazioni di AI utilizzando la generazione RAG (Retrieval-Augmented Generation). Crea un'applicazione web che sfrutti la potenza di RAG con LangChain, una tecnica che rende le risposte dell'AI più accurate e precise. |
2024-11-07 |
|
Finestra del prompt grande
Ottimizzazione del modello
RAG
Video
|
RAG, ottimizzazione del modello e finestra di prompt di grandi dimensioni Questo video illustra i tre metodi principali per integrare i dati nelle applicazioni di AI: prompt con finestre contestuali lunghe, Retrieval Augmented Generation (RAG) e ottimizzazione del modello. Scopri i punti di forza, i limiti e i casi d'uso ideali di ogni approccio per prendere decisioni informate per i tuoi progetti di AI in questo episodio di Serverless Expeditions. |
2024-11-14 |
|
Prompt engineering
Video
|
Prompt engineering per gli sviluppatori Questo video mostra come utilizzare il prompt engineering per migliorare la qualità delle risposte dell'AI. Guarda il video per scoprire come ottenere risposte più accurate e pertinenti dall'AI generativa con le tecniche di prompt chain of thought, few-shot e multi-shot. |
31/10/2024 |
|
Modelli di AI
GPU
LLM
Video
|
Deployment di un LLM basato su GPU su Cloud Run Questo video mostra come eseguire il deployment del tuo modello linguistico di grandi dimensioni (LLM) basato su GPU su Cloud Run. Questo video illustra come prendere un modello open source come Gemma e implementarlo come servizio scalabile e serverless con accelerazione GPU |
2024-10-06 |
|
GPU
LLM
Ollama
Video
|
Utilizzare le GPU in Cloud Run Questo video mostra una dimostrazione del deployment di Gemma 2 di Google, un modello linguistico di grandi dimensioni open source, tramite Ollama su Cloud Run. |
2024-10-03 |
|
Gemini
LLM
Video
|
Crea app di chat AI su Google Cloud Questo video mostra come creare un'app di chat con un modello linguistico di grandi dimensioni (LLM) su Gemini. |
2024-08-29 |
|
Multimodale
Vertex AI
Video
|
Questo video mostra una demo dell'utilizzo di Vertex AI per creare un'applicazione multimodale che elabora video, audio e testo per creare output. |
2024-08-15 |
|
Modelli di AI
Vertex AI
Video
|
Utilizzo dell'AI generativa serverless | Google Vertex AI Questo video mostra come creare ed eseguire il deployment di app di AI generativa velocissime utilizzando Vertex AI Studio, Cloud Run e modelli di AI generativa. |
2024-02-22 |
|
Codelab
Strumenti
|
Deployment ed esecuzione di n8n su Google Cloud Run Questo codelab mostra come eseguire il deployment di un'istanza pronta per la produzione dello strumento di automazione del flusso di lavoro n8n su Cloud Run, completa di un database Cloud SQL per la persistenza e Secret Manager per i dati sensibili. |
2025-11-20 |
|
Codelab
GPU
LLM
|
Come eseguire l'inferenza LLM sulle GPU Cloud Run con vLLM e l'SDK Python OpenAI Questo codelab mostra come eseguire il deployment del modello Gemma 2 2b ottimizzato per le istruzioni di Google su Cloud Run con GPU, utilizzando vLLM come motore di inferenza e l'SDK Python OpenAI per completare le frasi. |
2025-11-13 |
|
ADK
Agenti
Codelab
|
Esegui il deployment, gestisci e osserva l'agente ADK su Cloud Run Questo codelab ti guida attraverso il deployment, la gestione e il monitoraggio di un potente agente creato con l'Agent Development Kit (ADK) su Cloud Run. |
12/11/2025 |
|
Codelab
Gemini CLI
MCP
|
Come eseguire il deployment di un server MCP sicuro su Cloud Run Questo codelab ti guida nel deployment di un server Model Context Protocol (MCP) sicuro su Cloud Run e nella connessione a questo server dalla CLI Gemini. |
2025-10-28 |
|
ADK
Agenti
Codelab
MCP
|
Crea ed esegui il deployment di un agente ADK che utilizza un server MCP su Cloud Run Questo codelab ti guida nella creazione e nel deployment di un agente AI che utilizza strumenti con Agent Development Kit (ADK). L'agente si connette a un server MCP remoto per i suoi strumenti e viene sottoposto a deployment come container su Cloud Run. |
2025-10-27 |
|
Modelli di AI
Job Cloud Run
Codelab
Ottimizzazione del modello
|
Come ottimizzare un LLM utilizzando Cloud Run Jobs Questo codelab fornisce una guida passo passo su come utilizzare Cloud Run Jobs con le GPU per eseguire il fine-tuning di un modello Gemma 3 sul set di dati Text2Emoji e poi pubblicare il modello risultante su un servizio Cloud Run con vLLM. |
2025-10-21 |
|
Inferenza batch
Job Cloud Run
Codelab
|
Come eseguire l'inferenza batch sui job Cloud Run Questo codelab mostra come utilizzare un job Cloud Run basato su GPU per eseguire l'inferenza batch su un modello Llama 3.2-1b e scrivere i risultati direttamente in un bucket Cloud Storage. |
2025-10-21 |
|
ADK
Agenti
Codelab
GPU
LLM
MCP
|
Lab 3:Prototype to Production - Deploy Your ADK Agent to Cloud Run with GPU Questo codelab mostra come eseguire il deployment di un agente Agent Development Kit (ADK) pronto per la produzione con un backend Gemma con accelerazione GPU su Cloud Run. Il codelab tratta il deployment, l'integrazione e i test delle prestazioni. |
2025-10-03 |
|
Agenti
Codelab
|
Questo codelab mostra come eseguire il deployment di un'applicazione a due livelli su Cloud Run, costituita da un frontend Gradio e un backend dell'agente ADK, con particolare attenzione all'implementazione di una comunicazione sicura e autenticata da servizio a servizio. |
2025-09-29 |
|
Codelab
Gemini
|
Come eseguire il deployment di un'app chatbot FastAPI su Cloud Run utilizzando Gemini Questo codelab mostra come eseguire il deployment di un'app chatbot FastAPI in Cloud Run. |
2025-04-02 |
|
Cloud Run Functions
Codelab
LLM
|
Come ospitare un LLM in un sidecar per una funzione Cloud Run Questo codelab mostra come ospitare un modello gemma3:4b in un sidecar per una funzione Cloud Run. |
2025-03-27 |
|
Community
Sicurezza
|
Chiama in modo sicuro il tuo servizio Cloud Run da qualsiasi luogo Questo articolo fornisce un esempio di codice Python che acquisisce un token ID per chiamare in modo sicuro un servizio Cloud Run autenticato da qualsiasi ambiente. L'esempio utilizza le credenziali predefinite dell'applicazione (ADC) per autenticare la chiamata. |
2025-10-15 |
|
Modelli di AI
Community
RAG
|
Serverless AI: EmbeddingGemma with Cloud Run Questo articolo fornisce una guida passo passo su come containerizzare ed eseguire il deployment del modello EmbeddingGemma su Cloud Run con GPU, per poi utilizzarlo per creare un'applicazione RAG. |
2025-09-24 |
|
Community
Sicurezza
|
Chain of Trust for AI: Securing MCP Toolbox Architecture on Cloud Run Questo articolo analizza una semplice applicazione di prenotazione di hotel creata su Google Cloud. Mostra un modello di sicurezza Zero Trust solido che utilizza le identità di servizio e come viene stabilita una catena di attendibilità sicura dall'utente finale al database. |
3/09/2025 |
|
Modelli di AI
Community
Containerizzazione
Docker
Ollama
RAG
|
Serverless AI: Qwen3 Embeddings with Cloud Run Questo articolo fornisce un tutorial su come eseguire il deployment del modello di incorporamento Qwen3 su Cloud Run con GPU. L'articolo tratta anche la containerizzazione con Docker e Ollama e fornisce un esempio di come utilizzarla in un'applicazione RAG. |
2025-08-20 |
|
Architettura
Community
LLM
|
Continui a pacchettizzare i modelli di AI nei container? Fai questo in alternativa su Cloud Run Questo articolo propone un'architettura più efficiente e scalabile per l'erogazione di modelli linguistici di grandi dimensioni (LLM) su Cloud Run disaccoppiando i file del modello dal container dell'applicazione e utilizzando invece Cloud Storage FUSE. |
2025-08-11 |
|
Modelli di AI
Community
|
Creare un generatore di podcast basato sull'AI con Gemini e Cloud Run Questo articolo descrive in dettaglio come creare un generatore di podcast serverless basato sull'AI che utilizza Gemini per il riepilogo dei contenuti e Cloud Run. L'esempio orchestra la pipeline automatizzata per generare e distribuire briefing audio giornalieri dai feed RSS. |
2025-08-11 |
|
Community
MCP
|
Alimenta i tuoi server MCP con Google Cloud Run Questo articolo spiega lo scopo del Model Context Protocol (MCP) e fornisce un tutorial su come creare ed eseguire il deployment di un server MCP su Cloud Run per esporre le risorse come strumenti per le applicazioni di AI. |
2025-07-09 |
|
Community
Modelli ML
Monitoraggio
|
Deployment e monitoraggio di modelli ML con Cloud Run: leggeri, scalabili ed economici Questo articolo spiega come eseguire il deployment, monitorare e scalare automaticamente un modello di machine learning su Cloud Run, utilizzando uno stack di monitoraggio leggero con i servizi Google Cloud per monitorare le prestazioni e controllare i costi. |
2025-05-29 |
|
Modelli di AI
AI Studio
Community
LLM
|
Deployment di Gemma direttamente da AI Studio a Cloud Run Questo articolo fornisce un tutorial passo passo su come prendere un modello Gemma da AI Studio, adattare il suo codice per la produzione ed eseguirlo il deployment come applicazione web in container su Cloud Run. |
2025-05-29 |
|
ADK
Agenti
Community
MCP
|
La triade dell'architettura dell'agente: ADK, MCP e Cloud Run Questo articolo mostra come creare un'architettura basata sull'AI configurando un flusso di lavoro dell'Agent Development Kit (ADK) che comunica con un server Model Context Protocol (MCP) ospitato su Cloud Run per gestire le prenotazioni di voli. |
2025-05-27 |
|
A2A
Agenti
Community
Framework
Casi d'uso
|
Exploring Agent2Agent (A2A) Protocol with Purchasing Concierge Use Case on Cloud Run Questo articolo spiega il protocollo Agent2Agent (A2A) e ne illustra l'utilizzo con un'applicazione di concierge per gli acquisti. L'app Cloud Run contiene più agenti AI, creati con framework diversi, che collaborano tra loro per soddisfare l'ordine di un utente. |
2025-05-15 |
|
Modelli di AI
Automation
CI/CD
Community
GitHub
|
Automating ML Models Deployment with GitHub Actions and Cloud Run Questo articolo fornisce una guida completa su come creare una pipeline CI/CD con GitHub Actions per automatizzare la creazione e il deployment di modelli di machine learning come servizi containerizzati su Cloud Run. |
2025-05-08 |
|
Community
LLM
Sicurezza
|
Building Sovereign AI Solutions with Google Cloud - Cloud Run Questo articolo fornisce una guida passo passo su come creare ed eseguire il deployment di una soluzione di AI sovrana su Google Cloud utilizzando i controlli di sovranità di partner. Gli esempi eseguono un modello Gemma su Cloud Run, garantendo la residenza dei dati e la conformità alle normative europee. |
2025-04-03 |
|
Community
LLM
|
Da zero a Deepseek su Cloud Run durante il mio tragitto mattutino giornaliero Questo articolo mostra come eseguire rapidamente il deployment del modello Deepseek R1 su Cloud Run con GPU utilizzando Ollama durante il tragitto mattutino. Questo articolo esplora argomenti avanzati come l'incorporamento del modello nel container, i test A/B con la suddivisione del traffico e l'aggiunta di un'interfaccia utente web con un container sidecar. |
2025-02-11 |
|
Community
LLM
Ollama
|
Come eseguire (qualsiasi) LLM aperto con Ollama su Google Cloud Run [passo dopo passo] Questo articolo mostra come ospitare qualsiasi LLM aperto, come Gemma 2, su Google Cloud Run utilizzando Ollama. L'articolo include anche istruzioni per creare un bucket Cloud Storage per la persistenza del modello e per testare il deployment. |
2025-01-20 |
|
Community
Modelli ML
|
Deployment di modelli di machine learning serverless con GPU utilizzando Google Cloud: Cloud Run Questo articolo fornisce una guida passo passo per il deployment di un modello di machine learning (ML) con supporto GPU su Cloud Run. L'articolo tratta tutti gli argomenti, dalla configurazione del progetto e dalla containerizzazione al deployment automatizzato con Cloud Build e ai test con curl e JavaScript. |
2025-01-17 |