Questa pagina evidenzia i casi d'uso per l'hosting di agenti AI su Cloud Run.
Gli agenti AI sono entità software autonome che utilizzano sistemi basati su LLM per percepire, decidere e agire per raggiungere gli obiettivi. Man mano che vengono creati più agenti autonomi, la loro capacità di comunicare e collaborare diventa fondamentale.
Per un'introduzione agli agenti AI, consulta Che cos'è un agente AI.
Casi d'uso degli agenti AI su Cloud Run
Puoi implementare gli agenti AI come servizi Cloud Run per orchestrare un insieme di attività asincrone e fornire informazioni tramite più interazioni richiesta-risposta.
Un servizio Cloud Run è un endpoint API scalabile per la logica principale della tua applicazione. Gestisce in modo efficiente più utenti simultanei tramite lo scale up automatico, on demand e rapido delle istanze.
Architettura dell'agente AI su Cloud Run
Una tipica architettura di agente AI di cui è stato eseguito il deployment su Cloud Run può coinvolgere diversi componenti di Google Cloud e al di fuori di Google Cloud:
Il diagramma mostra quanto segue:
Piattaforma di hosting: Cloud Run è una piattaforma di hosting per l'esecuzione di agenti e offre i seguenti vantaggi:
- Supporta l'esecuzione di qualsiasi framework di agenti per creare diversi tipi di agenti e architetture di agenti. Esempi di framework per agenti includono Agent Development Kit (ADK), Dify, e LangGraph, e n8n.
- Fornisce funzionalità integrate per la gestione dell'agente. Ad esempio, Cloud Run fornisce un'identità del servizio integrata che puoi utilizzare come identità dell'agente per chiamare le API Google Cloud con credenziali sicure e automatiche.
- Supporta la connessione del framework dell'agente ad altri servizi. Puoi collegare l'agente a strumenti proprietari o di terze parti di cui è stato eseguito il deployment su Cloud Run. Ad esempio, per ottenere visibilità sulle attività e sulle esecuzioni dell'agente, puoi eseguire il deployment e utilizzare strumenti come Langfuse e Arize.
Interazioni con l'agente: Cloud Run supporta risposte HTTP in streaming all'utente e WebSockets per interazioni in tempo reale.
Modelli di AI generativa: il livello di orchestrazione chiama i modelli per le funzionalità di ragionamento. Questi modelli possono essere ospitati su servizi come:
- API Gemini per i modelli di AI generativa di Google.
- Endpoint Vertex AI per modelli personalizzati o altri modelli di base.
- Servizio Cloud Run abilitato per la GPU per i tuoi modelli ottimizzati.
Memoria: gli agenti spesso hanno bisogno di memoria per conservare il contesto e imparare dalle interazioni passate. Puoi utilizzare i seguenti servizi:
- Memorystore for Redis per la memoria a breve termine.
- Firestore per la memoria a lungo termine, ad esempio per memorizzare la cronologia delle conversazioni o ricordare le preferenze dell'utente in base ai dati non elaborati.
- Vertex AI Agent Engine Memory Bank per una memoria personalizzata a lungo termine. Questa funzionalità estrae automaticamente dalla cronologia delle conversazioni dell'utente per ricordare e aggiornare le sue preferenze nel tempo. Tieni presente che per utilizzare questa funzionalità con Cloud Run devi creare almeno un'istanza di Agent Engine.
Database vettoriale: per la Retrieval-Augmented Generation (RAG) o il recupero di dati strutturati, utilizza un database vettoriale per eseguire query su informazioni specifiche sulle entità o eseguire una ricerca vettoriale sugli incorporamenti. Utilizza l'estensione
pgvectorcon i seguenti servizi:Strumenti:l'orchestratore utilizza strumenti per eseguire attività specifiche per interagire con servizi, API o siti web esterni. Questi possono includere:
- Model Context Protocol (MCP): utilizza questo protocollo standardizzato per comunicare con strumenti esterni eseguiti tramite un server MCP.
- Utilità di base: calcoli matematici precisi, conversioni di tempo o altre utilità simili.
- Chiamata API: effettua chiamate ad altre API interne o di terze parti (accesso in lettura o scrittura).
- Generazione di immagini o grafici: crea contenuti visivi in modo rapido ed efficace.
- Automazione di browser e sistema operativo: esegui un sistema operativo headless o grafico completo all'interno delle istanze container per consentire all'agente di navigare sul web, estrarre informazioni dai siti web o eseguire azioni utilizzando clic e input da tastiera.
- Esecuzione del codice: esegui il codice in un ambiente sicuro con sandbox a più livelli, con autorizzazioni IAM minime o nulle .
- Esecuzione del codice di Vertex AI Agent Engine: esegui il codice in ambienti sandbox sicuri, isolati e gestiti che supportano l'input e l'output di file, l'esecuzione del codice in meno di un secondo e la memoria a lungo termine. Tieni presente che per utilizzare questa funzionalità in Cloud Run devi creare almeno un'istanza di Vertex AI Agent Engine.
Passaggi successivi
- Guarda Crea agenti AI su Cloud Run.
- Prova il codelab per scoprire come creare ed eseguire il deployment di un'app LangChain in Cloud Run.
- Scopri come eseguire il deployment di Agent Development Kit (ADK) su Cloud Run.
- Prova il codelab per l'utilizzo di un server MCP su Cloud Run con un agente ADK.
- Prova il codelab per il deployment dell'agente ADK in Cloud Run con GPU.
- Trova esempi di agenti pronti all'uso negli esempi di Agent Development Kit (ADK).
- Ospita i server Model Context Protocol (MCP) su Cloud Run.