Casi d'uso dell'AI su Cloud Run

Che tu stia creando agenti, eseguendo modelli di inferenza o integrando vari servizi di AI, Cloud Run offre la scalabilità, la flessibilità e la facilità d'uso necessarie per dare vita alle tue innovazioni di AI.

Questa pagina evidenzia alcuni casi d'uso di alto livello per l'hosting, la creazione e il deployment di carichi di lavoro di AI su Cloud Run.

Perché utilizzare Cloud Run per i carichi di lavoro AI?

Cloud Run offre diversi vantaggi per garantire che le tue applicazioni AI siano scalabili, flessibili e gestibili. Alcuni punti salienti includono:

Supporto flessibile dei container: crea il pacchetto della tua app e delle relative dipendenze in un container oppure utilizza qualsiasi linguaggio, libreria o framework supportato. Scopri di più sul contratto di runtime del container di Cloud Run.
Endpoint HTTP: dopo aver eseguito il deployment di un servizio Cloud Run, ricevi un endpoint URL Cloud Run sicuro e pronto all'uso. Cloud Run fornisce lo streaming supportando la codifica del trasferimento HTTP in blocchi, HTTP/2 e WebSocket.
Scalabilità automatica o manuale: per impostazione predefinita, Cloud Run scala automaticamente il servizio in base alla domanda, anche fino a zero. In questo modo paghi solo per ciò che utilizzi, il che lo rende ideale per i carichi di lavoro di AI imprevedibili. Puoi anche impostare il tuo servizio sulla scalabilità manuale in base alle tue esigenze di traffico e utilizzo della CPU.

Supporto GPU: accelera i tuoi modelli di AI configurando le risorse Cloud Run con le GPU. I servizi Cloud Run con GPU abilitate possono essere fare lo scale down a zero per risparmiare sui costi quando non sono in uso.
Ecosistema integrato: connettiti facilmente ad altri servizi Google Cloud , come Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB per PostgreSQL, Cloud CDN, Secret Manager e domini personalizzati per creare pipeline AI complete end-to-end. Google Cloud Observability fornisce anche strumenti di monitoraggio e logging integrati per comprendere le prestazioni delle applicazioni e risolvere i problemi in modo efficace.

Pronto per l'uso aziendale: Cloud Run offre connettività VPC diretta, controlli granulari di sicurezza e networking.

Principali casi d'uso dell'AI

Ecco alcuni modi in cui puoi utilizzare Cloud Run per potenziare le tue applicazioni di AI:

Ospitare agenti AI e bot

Cloud Run è una piattaforma ideale per ospitare la logica di backend per agenti AI, chatbot e assistenti virtuali. Questi agenti possono orchestrare chiamate a modelli di AI come Gemini su Vertex AI, gestire lo stato e integrarsi con vari strumenti e API.

Microservizi per gli agenti: esegui il deployment delle singole funzionalità dell'agente come servizi Cloud Run separati. Per saperne di più, consulta Agenti AI host.

Comunicazione Agent2Agent (A2A): crea sistemi di agenti collaborativi utilizzando il protocollo A2A. Per saperne di più, consulta Ospitare agenti A2A.

Server Model Context Protocol (MCP): implementa i server MCP per fornire un contesto standardizzato agli LLM dagli strumenti e dalle origini dati. Per saperne di più, consulta Server MCP host.

Pubblica modelli AI/ML per l'inferenza

Esegui il deployment dei tuoi modelli di machine learning addestrati come endpoint HTTP scalabili.

Inferenza in tempo reale: fornisci previsioni da modelli creati con framework come TensorFlow, PyTorch, scikit-learn o utilizzando modelli aperti come Gemma. Per un esempio, consulta Eseguire Gemma 3 su Cloud Run.

Accelerazione GPU: utilizza le GPU NVIDIA per accelerare l'inferenza per i modelli più esigenti. Per saperne di più, consulta Configurare la GPU per i servizi.
Integrazione con Vertex AI: pubblica modelli addestrati o sottoposti a deployment su Vertex AI utilizzando Cloud Run come frontend scalabile.

Disaccoppia i file di modelli di grandi dimensioni dal container: l'adattatore Cloud Storage FUSE consente di montare un bucket Cloud Storage e renderlo accessibile come directory locale all'interno del container Cloud Run.

Creare sistemi di Retrieval-Augmented Generation (RAG)

Crea applicazioni RAG collegando i servizi Cloud Run alle tue origini dati.

Database vettoriali: connettiti a database vettoriali ospitati su Cloud SQL (con pgvector), AlloyDB per PostgreSQL, Memorystore for Redis o altri archivi vettoriali specializzati per recuperare il contesto pertinente per i tuoi LLM. Consulta un esempio di infrastruttura di utilizzo di Cloud Run per ospitare un'applicazione di AI generativa compatibile con RAG e l'elaborazione dei dati utilizzando Vertex AI e Vector Search.
Accesso ai dati: recupera i dati da Cloud Storage, BigQuery, Firestore o altre API per arricchire i prompt.

Ospitare API e backend basati sull'AI

Crea API e microservizi che incorporano funzionalità di AI.

API intelligenti: sviluppa API che utilizzano LLM per la comprensione del linguaggio naturale, l'analisi del sentiment, la traduzione, il riepilogo e così via.
Workflow automatizzati: crea servizi che attivano azioni basate sull'AI in base a eventi o richieste.

Prototipare e sperimentare idee

Itera rapidamente sulle idee di AI.

Deployment rapido: sposta rapidamente i prototipi da ambienti come Vertex AI Studio, Google AI Studio o dai blocchi note Jupyter a deployment scalabili su Cloud Run con una configurazione minima.

Suddivisione del traffico: utilizza la funzionalità di suddivisione del traffico di Cloud Run per eseguire test A/B su modelli, prompt o configurazioni diversi e Google Cloud Observability per monitorare le metriche (latenza, tasso di errore, costo) per misurare il successo dei test A/B.

Passaggi successivi

A seconda della tua familiarità con i concetti di AI e del tuo caso d'uso dell'AI, esplora le risorse AI di Cloud Run.

Casi d'uso dell'AI su Cloud Run Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.