Ospitare agenti AI su Cloud Run

Questa pagina evidenzia i casi d'uso per l'hosting di agenti AI su Cloud Run.

Gli agenti AI sono entità software autonome che utilizzano sistemi basati su LLM per percepire, decidere e agire per raggiungere gli obiettivi. Man mano che vengono creati più agenti autonomi, la loro capacità di comunicare e collaborare diventa fondamentale.

Per un'introduzione agli agenti AI, consulta Che cos'è un agente AI.

Casi d'uso degli agenti AI su Cloud Run

Puoi implementare gli agenti AI come servizi Cloud Run per orchestrare un insieme di attività asincrone e fornire informazioni tramite più interazioni richiesta-risposta.

Un servizio Cloud Run è un endpoint API scalabile per la logica principale della tua applicazione. Gestisce in modo efficiente più utenti simultanei tramite lo scale up automatico, on demand e rapido delle istanze.

Architettura dell'agente AI su Cloud Run

Una tipica architettura di agenti AI di cui è stato eseguito il deployment su Cloud Run può coinvolgere diversi componenti di Google Cloud e al di fuori di Google Cloud:

I quattro componenti dell'agente AI ospitato su Cloud Run.
Figura 1. Architettura di un agente AI su Cloud Run.

Il diagramma mostra quanto segue:

  • Piattaforma di hosting: Cloud Run è una piattaforma di hosting per l'esecuzione di agenti e offre i seguenti vantaggi:

    • Supporta l'esecuzione di qualsiasi framework di agenti per creare diversi tipi di agenti e architetture di agenti. Esempi di framework per agenti includono Agent Development Kit (ADK), Dify, e LangGraph, e n8n.
    • Fornisce funzionalità integrate per la gestione dell'agente. Ad esempio, Cloud Run fornisce un'identità di servizio integrata che puoi utilizzare come identità dell'agente per chiamare le API con credenziali sicure e automatiche. Google Cloud
    • Supporta la connessione del framework dell'agente ad altri servizi. Puoi collegare l'agente a strumenti proprietari o di terze parti di cui è stato eseguito il deployment su Cloud Run. Ad esempio, per ottenere visibilità sulle attività e sulle esecuzioni dell'agente, puoi eseguire il deployment e utilizzare strumenti come Langfuse e Arize.
  • Interazioni con l'agente: Cloud Run supporta risposte HTTP in streaming all'utente e WebSockets per interazioni in tempo reale.

  • Modelli di AI generativa: il livello di orchestrazione chiama i modelli per le funzionalità di ragionamento. Questi modelli possono essere ospitati su servizi come:

  • Memoria: gli agenti spesso hanno bisogno di memoria per conservare il contesto e imparare dalle interazioni passate. Puoi utilizzare i seguenti servizi:

    • Memorystore for Redis per la memoria a breve termine.
    • Firestore per la memoria a lungo termine, ad esempio per memorizzare la cronologia delle conversazioni o ricordare le preferenze dell'utente.
  • Database vettoriale: per la Retrieval-Augmented Generation (RAG) o il recupero di dati strutturati, utilizza un database vettoriale per eseguire query su informazioni specifiche sulle entità o eseguire una ricerca vettoriale sugli incorporamenti. Utilizza l'estensione pgvector con i seguenti servizi:

  • Strumenti:l'orchestratore utilizza strumenti per eseguire attività specifiche per interagire con servizi, API o siti web esterni. Questi possono includere:

    • Model Context Protocol (MCP): utilizza questo protocollo standardizzato per comunicare con strumenti esterni eseguiti tramite un server MCP.
    • Utilità di base: calcoli matematici precisi, conversioni di tempo o altre utilità simili.
    • Chiamata API: effettua chiamate ad altre API interne o di terze parti (accesso in lettura o scrittura).
    • Generazione di immagini o grafici: crea contenuti visivi in modo rapido ed efficace.
    • Automazione del browser e del sistema operativo: esegui un sistema operativo headless o grafico completo all'interno delle istanze container per consentire all'agente di navigare sul web, estrarre informazioni dai siti web o eseguire azioni utilizzando clic e input da tastiera.
    • Esecuzione del codice: esegui il codice in un ambiente sicuro con sandbox a più livelli, con autorizzazioni IAM minime o nulle .

Passaggi successivi