Questo documento fornisce un'architettura di alto livello per un sistema di AI multi-agente di cui è stato eseguito il deployment su Cloud Run che analizza dati multimodali disparati e produce una classificazione ad alta confidenza. Questo approccio esegue la convalida incrociata dei media frammentati confrontando i dati in tempo reale con i dati di riferimento storici per produrre approfondimenti fondati e verificabili.
Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori che creano e gestiscono infrastrutture e applicazioni di AI nel cloud. Questo documento presuppone che tu abbia una conoscenza di base degli agenti e dei modelli di AI. Il documento non fornisce indicazioni specifiche per la progettazione e la codifica di agenti AI.
La sezione Deployment di questo documento elenca esempi di codice che puoi utilizzare per imparare a creare e implementare sistemi di AI multi-agente.
Architettura
Il seguente diagramma mostra l'architettura del sistema di AI multi-agente che utilizza un pattern di progettazione di agenti paralleli per coordinare l'analisi indipendente dei dati multimodali al fine di produrre una singola classificazione.
L'architettura mostra il seguente flusso di dati:
- L'applicazione web invia una richiesta all'agente principale per analizzare un insieme di dati multimodali per la classificazione. L'agente principale è un agente coordinatore che riceve le richieste e viene implementato su un servizio Cloud Run.
- L'agente principale gestisce la richiesta nel seguente modo:
- L'agente root avvia un
before_agent_callbackper raccogliere le configurazioni dell'ambiente, convalidare l'input utente'utente e salvare i percorsi delle risorse in uno stato della sessione condiviso. Tutti i subagenti possono accedere allo stato della sessione condivisa, il che elimina le chiamate ridondanti per recuperare i dati di stato e riduce la latenza complessiva. - L'agente principale utilizza Gemini su Vertex AI per interpretare la richiesta dell'utente e distribuire le attività a subagenti specializzati che vengono eseguiti in parallelo.
- L'agente root avvia un
- Ogni subagente è specializzato in un determinato dominio e svolge le
seguenti attività in modo indipendente:
- Gli agenti secondari di analisi di immagini e video interagiscono con server MCP (Model Context
Protocol) personalizzati per
eseguire le seguenti azioni:
- Recupera i dati non strutturati non elaborati archiviati in un bucket Cloud Storage.
- Invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
- Gemini invia la classificazione suggerita e il livello di confidenza al server MCP personalizzato.
- Il server MCP personalizzato inoltra la risposta al subagente.
- Il subagent analista dei dati strutturati coordina l'analisi completando
le seguenti attività:
- Interagisce con il server BigQuery MCP per recuperare dati strutturati e contestuali (come record storici, log eventi o letture dei sensori) archiviati in un set di dati BigQuery.
- L'analista dei dati strutturati invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
- Gemini invia la classificazione suggerita e il livello di confidenza al subagente.
- Gli agenti secondari di analisi di immagini e video interagiscono con server MCP (Model Context
Protocol) personalizzati per
eseguire le seguenti azioni:
- Ogni subagente invia la classificazione suggerita e il livello di confidenza all'agente principale.
- L'agente principale utilizza Gemini per riassumere gli output
degli agenti secondari specializzati per produrre una classificazione
singola e ad alta affidabilità.
- Se la maggior parte delle classificazioni degli agenti secondari specializzati corrisponde, l'agente principale invia la classificazione corrispondente all'applicazione web.
- Se i subagenti non forniscono una classificazione corrispondente, l'agente radice seleziona la classificazione con il livello di confidenza più alto e la invia all'applicazione web.
Prodotti utilizzati
Questa architettura di riferimento utilizza i seguenti prodotti e strumenti: Google Cloud
- Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
- Vertex AI: una piattaforma ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare LLM da utilizzare nelle applicazioni basate sull'AI.
- Gemini: una famiglia di modelli di AI multimodale sviluppati da Google.
- BigQuery: un data warehouse aziendale che ti aiuta a gestire e analizzare i dati con funzionalità integrate come machine learning, analisi geospaziale e business intelligence.
- Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.
- Server MCP di Google Cloud: servizi remoti gestiti da Google che implementano il Model Context Protocol (MCP) per fornire alle applicazioni AI l'accesso ai prodotti e servizi Google e Google Cloud.
- Model Context Protocol (MCP): uno standard open source per connettere le applicazioni AI a sistemi esterni.
- Agent Development Kit (ADK): un insieme di strumenti e librerie per sviluppare, testare e distribuire agenti AI.
Per informazioni su come selezionare componenti alternativi per il tuo sistema di AI agentica, inclusi framework, runtime dell'agente, strumenti, memoria e pattern di progettazione, consulta Scegliere i componenti dell'architettura di AI agentica.
Caso d'uso
Questa architettura è progettata per casi d'uso che sintetizzano diversi dati multimodali per attività di classificazione e rilevamento. Per una maggiore precisione e scalabilità, l'architettura utilizza un sistema di AI multi-agente anziché un approccio monolitico a singolo agente. Questo pattern di progettazione fornisce istruzioni mirate, evita direttive contrastanti, consente set di strumenti più piccoli per decisioni più rapide e supporta aggiornamenti indipendenti, il che porta a risultati più solidi e sofisticati.
Di seguito sono riportati alcuni esempi di casi d'uso per l'architettura descritta in questo documento:
- Diagnosi medica: fornisci valutazioni diagnostiche complete implementando agenti specializzati per analizzare in modo indipendente immagini mediche, sintomi dei pazienti e risultati di laboratorio. Il sistema di AI riassume questi risultati in base a una soglia di confidenza determinata per fornire approfondimenti fondati e verificabili per i medici.
- Rilevamento delle frodi: rileva e segnala potenziali frodi eseguendo il deployment di agenti per analizzare in modo indipendente i modelli di comportamento degli utenti e i dati delle transazioni, come ricevute scansionate e fatture del commerciante. Confrontando le prove visive dei documenti con l'attività di rete digitale, il sistema identifica le discrepanze e segnala le transazioni in cui un singolo agente identifica un indicatore sospetto.
- Elaborazione dei documenti: automatizza la classificazione e l'estrazione di informazioni dai documenti eseguendo il deployment di agenti specializzati per il riconoscimento ottico dei caratteri (OCR), la classificazione dei documenti e l'estrazione dei dati. Per supportare l'elaborazione ad alta affidabilità, il sistema di AI richiede che tutti gli agenti concordino sull'output.
- Controllo qualità: classifica la qualità del prodotto o rileva anomalie implementando agenti specializzati per l'ispezione visiva, l'analisi dei dati dei sensori e il controllo delle specifiche. Il sistema determina un risultato positivo o negativo in base a una soglia di confidenza determinata tra gli agenti.
Considerazioni sulla progettazione
Per implementare questa architettura per la produzione, considera i seguenti suggerimenti:
- Sicurezza dell'agente: per limitare la capacità di un agente di intraprendere azioni pericolose, crea un'identità agente e poi proteggi l'accesso ai server MCP utilizzando attributi Identity and Access Management (IAM). Applicando il principio del privilegio minimo, puoi contribuire a garantire che il tuo sistema di AI con agenti si comporti come previsto e impedisca l'accesso in lettura/scrittura non intenzionale alle tue risorse di produzione.
- Sicurezza Ingress:per controllare l'accesso all'applicazione, disabilita l'URL run.app predefinito del servizio Cloud Run frontend e configura un bilanciatore del carico delle applicazioni esterno regionale. Oltre a bilanciare il carico del traffico in entrata verso l'applicazione, il bilanciatore del carico gestisce i certificati SSL. Per una maggiore protezione, utilizza i criteri di sicurezza di Google Cloud Armor per fornire il filtro delle richieste, la protezione dagli attacchi DDoS e limitazione di frequenza per il servizio.
- Sicurezza delle immagini container:per garantire che solo le immagini container autorizzate vengano sottoposte a deployment su Cloud Run, utilizza Autorizzazione binaria. Per identificare e mitigare i rischi per la sicurezza nelle immagini container, esegui automaticamente le scansioni delle vulnerabilità utilizzando Artifact Analysis. Per saperne di più, consulta la Panoramica della scansione dei container.
- Prompt a costi contenuti: la lunghezza dei prompt (input) e delle risposte generate (output) influisce direttamente su prestazioni e costi. Scrivi prompt brevi, diretti e che forniscano un contesto sufficiente. Per saperne di più, consulta le best practice per la progettazione dei prompt.
- Costi di archiviazione:per controllare i costi di archiviazione, puoi scegliere la classe di archiviazione Standard e attivare Gestione del ciclo di vita degli oggetti e Autoclass. Queste funzionalità ti aiutano a ottimizzare i costi spostando o eliminando automaticamente i dati tra le classi di archiviazione in base ai tuoi pattern di accesso o alle regole che imposti.
- Sicurezza dello spazio di archiviazione: Cloud Storage supporta due metodi per controllare l'accesso degli utenti ai bucket e agli oggetti: IAM e elenchcontrollo dell'accessoso (ACL). Nella maggior parte dei casi, consigliamo di utilizzare IAM, che consente di concedere autorizzazioni a livello di bucket e progetto. Per saperne di più, consulta la Panoramica del controllo dell'accesso.
- Allocazione delle risorse:a seconda dei requisiti di prestazioni, configura i limiti di memoria e i limiti di CPU da allocare al servizio Cloud Run. Per ulteriori indicazioni sull'ottimizzazione delle prestazioni, consulta Suggerimenti generali per lo sviluppo di Cloud Run.
Per informazioni sui fattori di progettazione e sulle best practice, nonché per consigli sulla creazione e sul deployment di un sistema di AI multi-agente, consulta Sistema di AI multi-agente in Google Cloud.
Deployment
Per eseguire il deployment di un'implementazione di esempio di questa architettura, prova il codelab Way Back Home Level 1.
Passaggi successivi
- Scopri come ospitare agenti AI su Cloud Run.
- Scopri come creare ed eseguire il deployment di un server MCP remoto su Cloud Run.
- Scopri come scegliere i componenti dell'architettura di AI agentica.
- (Video) Guarda il podcast The Agent Factory sulla creazione di strumenti personalizzati per gli agenti.
- Esplora altre guide all'architettura dell'AI agentica.
- Per una panoramica dei principi e dei consigli architetturali specifici per i workload di AI e ML in Google Cloud, consulta la prospettiva AI e ML nel framework Well-Architected.
- Per ulteriori architetture di riferimento, diagrammi e best practice, esplora Cloud Architecture Center.
Collaboratori
Autore: Samantha He | Technical Writer
Altri collaboratori:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Andrey Shakirov | Solutions Architect, Google Cloud
- Ayo Adedeji | Developer Relations Engineer
- Christina Lin | Developer Relations Engineer Manager
- Kumar Dhanagopal | Cross-Product Solution Developer
- Ryan Pei | Product Manager, Google Cloud