Casi d'uso dell'AI su Cloud Run

Che tu stia creando agenti, eseguendo modelli di inferenza o integrando vari servizi di AI, Cloud Run offre la scalabilità, la flessibilità e la facilità d'uso necessarie per dare vita alle tue innovazioni di AI.

Questa pagina evidenzia alcuni casi d'uso di alto livello per l'hosting, la creazione e il deployment di carichi di lavoro di AI su Cloud Run.

Perché utilizzare Cloud Run per i carichi di lavoro AI?

Cloud Run offre diversi vantaggi per garantire che le tue applicazioni AI siano scalabili, flessibili e gestibili. Alcuni punti salienti includono:

  • Supporto flessibile dei container: crea il pacchetto della tua app e delle relative dipendenze in un container oppure utilizza qualsiasi linguaggio, libreria o framework supportato. Scopri di più sul contratto di runtime del container di Cloud Run.
  • Endpoint HTTP: dopo aver eseguito il deployment di un servizio Cloud Run, ricevi un endpoint URL Cloud Run sicuro e pronto all'uso. Cloud Run fornisce lo streaming supportando la codifica del trasferimento HTTP in blocchi, HTTP/2 e WebSocket.
  • Scalabilità automatica o manuale: per impostazione predefinita, Cloud Run scala automaticamente il servizio in base alla domanda, anche fino a zero. In questo modo paghi solo per ciò che utilizzi, il che lo rende ideale per i carichi di lavoro di AI imprevedibili. Puoi anche impostare il tuo servizio sulla scalabilità manuale in base alle tue esigenze di traffico e utilizzo della CPU.

Principali casi d'uso dell'AI

Ecco alcuni modi in cui puoi utilizzare Cloud Run per potenziare le tue applicazioni di AI:

Ospitare agenti AI e bot

Cloud Run è una piattaforma ideale per ospitare la logica di backend per agenti AI, chatbot e assistenti virtuali. Questi agenti possono orchestrare chiamate a modelli di AI come Gemini su Vertex AI, gestire lo stato e integrarsi con vari strumenti e API.

  • Microservizi per gli agenti: esegui il deployment delle singole funzionalità dell'agente come servizi Cloud Run separati. Per saperne di più, consulta Agenti AI host.
  • Comunicazione Agent2Agent (A2A): crea sistemi di agenti collaborativi utilizzando il protocollo A2A. Per saperne di più, consulta Ospitare agenti A2A.
  • Server Model Context Protocol (MCP): implementa i server MCP per fornire un contesto standardizzato agli LLM dagli strumenti e dalle origini dati. Per saperne di più, consulta Server MCP host.

Pubblica modelli AI/ML per l'inferenza

Esegui il deployment dei tuoi modelli di machine learning addestrati come endpoint HTTP scalabili.

  • Inferenza in tempo reale: fornisci previsioni da modelli creati con framework come TensorFlow, PyTorch, scikit-learn o utilizzando modelli aperti come Gemma. Per un esempio, consulta Eseguire Gemma 3 su Cloud Run.
  • Accelerazione GPU: utilizza le GPU NVIDIA per accelerare l'inferenza per i modelli più esigenti. Per saperne di più, consulta Configurare la GPU per i servizi.
  • Integrazione con Vertex AI: pubblica modelli addestrati o sottoposti a deployment su Vertex AI utilizzando Cloud Run come frontend scalabile.
  • Disaccoppia i file di modelli di grandi dimensioni dal container: l'adattatore Cloud Storage FUSE consente di montare un bucket Cloud Storage e renderlo accessibile come directory locale all'interno del container Cloud Run.

Creare sistemi di Retrieval-Augmented Generation (RAG)

Crea applicazioni RAG collegando i servizi Cloud Run alle tue origini dati.

  • Database vettoriali: connettiti a database vettoriali ospitati su Cloud SQL (con pgvector), AlloyDB per PostgreSQL, Memorystore for Redis o altri archivi vettoriali specializzati per recuperare il contesto pertinente per i tuoi LLM. Consulta un esempio di infrastruttura di utilizzo di Cloud Run per ospitare un'applicazione di AI generativa compatibile con RAG e l'elaborazione dei dati utilizzando Vertex AI e Vector Search.
  • Accesso ai dati: recupera i dati da Cloud Storage, BigQuery, Firestore o altre API per arricchire i prompt.

Ospitare API e backend basati sull'AI

Crea API e microservizi che incorporano funzionalità di AI.

  • API intelligenti: sviluppa API che utilizzano LLM per la comprensione del linguaggio naturale, l'analisi del sentiment, la traduzione, il riepilogo e così via.
  • Workflow automatizzati: crea servizi che attivano azioni basate sull'AI in base a eventi o richieste.

Prototipare e sperimentare idee

Itera rapidamente sulle idee di AI.

  • Deployment rapido: sposta rapidamente i prototipi da ambienti come Vertex AI Studio, Google AI Studio o dai blocchi note Jupyter a deployment scalabili su Cloud Run con una configurazione minima.
  • Suddivisione del traffico: utilizza la funzionalità di suddivisione del traffico di Cloud Run per eseguire test A/B su modelli, prompt o configurazioni diversi e Google Cloud Observability per monitorare le metriche (latenza, tasso di errore, costo) per misurare il successo dei test A/B.

Passaggi successivi

A seconda della tua familiarità con i concetti di AI e del tuo caso d'uso dell'AI, esplora le risorse AI di Cloud Run.