Che tu stia creando agenti, eseguendo modelli di inferenza o integrando vari servizi di AI, Cloud Run offre la scalabilità, la flessibilità e la facilità d'uso necessarie per dare vita alle tue innovazioni di AI.
Questa pagina evidenzia alcuni casi d'uso di alto livello per l'hosting, la creazione e il deployment di carichi di lavoro di AI su Cloud Run.
Perché utilizzare Cloud Run per i carichi di lavoro AI?
Cloud Run offre diversi vantaggi per garantire che le tue applicazioni AI siano scalabili, flessibili e gestibili. Alcuni punti salienti includono:
- Supporto flessibile dei container: crea il pacchetto della tua app e delle relative dipendenze in un container oppure utilizza qualsiasi linguaggio, libreria o framework supportato. Scopri di più sul contratto di runtime del container di Cloud Run.
- Endpoint HTTP: dopo aver eseguito il deployment di un servizio Cloud Run, ricevi un endpoint URL Cloud Run sicuro e pronto all'uso. Cloud Run fornisce lo streaming supportando la codifica del trasferimento HTTP in blocchi, HTTP/2 e WebSocket.
- Scalabilità automatica o manuale: per impostazione predefinita, Cloud Run scala automaticamente il servizio in base alla domanda, anche fino a zero. In questo modo paghi solo per ciò che utilizzi, il che lo rende ideale per i carichi di lavoro di AI imprevedibili. Puoi anche impostare il tuo servizio sulla scalabilità manuale in base alle tue esigenze di traffico e utilizzo della CPU.
Supporto GPU: accelera i tuoi modelli di AI configurando le risorse Cloud Run con le GPU. I servizi Cloud Run con GPU abilitate possono essere fare lo scale down a zero per risparmiare sui costi quando non sono in uso.
Ecosistema integrato: connettiti facilmente ad altri servizi Google Cloud , come Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB per PostgreSQL, Cloud CDN, Secret Manager e domini personalizzati per creare pipeline AI complete end-to-end. Google Cloud Observability fornisce anche strumenti di monitoraggio e logging integrati per comprendere le prestazioni delle applicazioni e risolvere i problemi in modo efficace.
- Pronto per l'uso aziendale: Cloud Run offre connettività VPC diretta, controlli granulari di sicurezza e networking.
Principali casi d'uso dell'AI
Ecco alcuni modi in cui puoi utilizzare Cloud Run per potenziare le tue applicazioni di AI:
Ospitare agenti AI e bot
Cloud Run è una piattaforma ideale per ospitare la logica di backend per agenti AI, chatbot e assistenti virtuali. Questi agenti possono orchestrare chiamate a modelli di AI come Gemini su Vertex AI, gestire lo stato e integrarsi con vari strumenti e API.
- Microservizi per gli agenti: esegui il deployment delle singole funzionalità dell'agente come servizi Cloud Run separati. Per saperne di più, consulta Agenti AI host.
- Comunicazione Agent2Agent (A2A): crea sistemi di agenti collaborativi utilizzando il protocollo A2A. Per saperne di più, consulta Ospitare agenti A2A.
- Server Model Context Protocol (MCP): implementa i server MCP per fornire un contesto standardizzato agli LLM dagli strumenti e dalle origini dati. Per saperne di più, consulta Server MCP host.
Pubblica modelli AI/ML per l'inferenza
Esegui il deployment dei tuoi modelli di machine learning addestrati come endpoint HTTP scalabili.
- Inferenza in tempo reale: fornisci previsioni da modelli creati con framework come TensorFlow, PyTorch, scikit-learn o utilizzando modelli aperti come Gemma. Per un esempio, consulta Eseguire Gemma 3 su Cloud Run.
- Accelerazione GPU: utilizza le GPU NVIDIA per accelerare l'inferenza per i modelli più esigenti. Per saperne di più, consulta Configurare la GPU per i servizi.
- Integrazione con Vertex AI: pubblica modelli addestrati o sottoposti a deployment su Vertex AI utilizzando Cloud Run come frontend scalabile.
- Disaccoppia i file di modelli di grandi dimensioni dal container: l'adattatore Cloud Storage FUSE consente di montare un bucket Cloud Storage e renderlo accessibile come directory locale all'interno del container Cloud Run.
Creare sistemi di Retrieval-Augmented Generation (RAG)
Crea applicazioni RAG collegando i servizi Cloud Run alle tue origini dati.
- Database vettoriali: connettiti a database vettoriali ospitati su
Cloud SQL (con
pgvector), AlloyDB per PostgreSQL, Memorystore for Redis o altri archivi vettoriali specializzati per recuperare il contesto pertinente per i tuoi LLM. Consulta un esempio di infrastruttura di utilizzo di Cloud Run per ospitare un'applicazione di AI generativa compatibile con RAG e l'elaborazione dei dati utilizzando Vertex AI e Vector Search. - Accesso ai dati: recupera i dati da Cloud Storage, BigQuery, Firestore o altre API per arricchire i prompt.
Ospitare API e backend basati sull'AI
Crea API e microservizi che incorporano funzionalità di AI.
- API intelligenti: sviluppa API che utilizzano LLM per la comprensione del linguaggio naturale, l'analisi del sentiment, la traduzione, il riepilogo e così via.
- Workflow automatizzati: crea servizi che attivano azioni basate sull'AI in base a eventi o richieste.
Prototipare e sperimentare idee
Itera rapidamente sulle idee di AI.
- Deployment rapido: sposta rapidamente i prototipi da ambienti come Vertex AI Studio, Google AI Studio o dai blocchi note Jupyter a deployment scalabili su Cloud Run con una configurazione minima.
- Suddivisione del traffico: utilizza la funzionalità di suddivisione del traffico di Cloud Run per eseguire test A/B su modelli, prompt o configurazioni diversi e Google Cloud Observability per monitorare le metriche (latenza, tasso di errore, costo) per misurare il successo dei test A/B.
Passaggi successivi
A seconda della tua familiarità con i concetti di AI e del tuo caso d'uso dell'AI, esplora le risorse AI di Cloud Run.