Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Caso d'uso dell'AI agentica: classifica i dati multimodali

Last reviewed 2026-03-03 UTC

Questo documento fornisce un'architettura di alto livello per un sistema di AI multi-agente implementato su Cloud Run che analizza dati multimodali disparati e produce una classificazione ad alta confidenza. Questo approccio esegue la convalida incrociata dei media frammentati abbinando i dati in tempo reale ai dati di fatto storici per produrre approfondimenti fondati e verificabili.

Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori che creano e gestiscono infrastrutture e applicazioni AI nel cloud. Questo documento presuppone che tu abbia una conoscenza di base degli agenti e dei modelli di AI. Il documento non fornisce indicazioni specifiche per la progettazione e la codifica di agenti AI.

La sezione Deployment di questo documento elenca esempi di codice che puoi utilizzare per imparare a creare e implementare sistemi di AI multi-agente.

Architettura

Il seguente diagramma mostra l'architettura del sistema di AI multi-agente che utilizza un pattern di progettazione di agenti paralleli per coordinare l'analisi indipendente dei dati multimodali al fine di produrre una singola classificazione.

Architettura di un sistema di AI multi-agente che classifica i dati multimodali.

L'architettura mostra il seguente flusso di dati:

L'applicazione web invia una richiesta all'agente principale per analizzare un insieme di dati multimodali per la classificazione. L'agente principale è un agente coordinatore che riceve le richieste e viene implementato su un servizio Cloud Run.
L'agente principale gestisce la richiesta nel seguente modo:
1. L'agente root avvia un before_agent_callback per raccogliere le configurazioni dell'ambiente, convalidare l'input utente'utente e salvare i percorsi delle risorse in uno stato della sessione condiviso. Tutti i subagenti possono accedere allo stato della sessione condivisa, il che elimina le chiamate ridondanti per recuperare i dati di stato e riduce la latenza complessiva.
2. L'agente principale utilizza Gemini su Gemini Enterprise Agent Platform per interpretare la richiesta dell'utente e distribuire le attività a subagenti specializzati che vengono eseguiti in parallelo.
Ogni subagente è specializzato in un determinato dominio e svolge le seguenti attività in modo indipendente:
1. Gli agenti secondari di analisi di immagini e video interagiscono con server Model Context Protocol (MCP) personalizzati per eseguire le seguenti azioni:
  1. Recupera i dati non strutturati non elaborati archiviati in un bucket Cloud Storage.
  2. Invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
  3. Gemini invia la classificazione suggerita e il livello di confidenza al server MCP personalizzato.
  4. Il server MCP personalizzato inoltra la risposta al subagente.
2. L'agente secondario di analisi dei dati strutturati coordina l'analisi completando le seguenti attività:
  1. Interagisce con il server BigQuery MCP per recuperare dati strutturati e contestuali (come record storici, log eventi o letture dei sensori) archiviati in un set di dati BigQuery.
  2. L'analista dei dati strutturati invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
  3. Gemini invia la classificazione suggerita e il livello di confidenza al subagente.
Ogni subagente invia la classificazione suggerita e il livello di confidenza all'agente principale.
L'agente principale utilizza Gemini per riassumere gli output degli agenti secondari specializzati per produrre una classificazione singola e ad alta affidabilità.
- Se la maggior parte delle classificazioni dei subagenti specializzati corrisponde, l'agente principale invia la classificazione corrispondente all'applicazione web.
- Se i subagenti non forniscono una classificazione corrispondente, l'agente radice seleziona la classificazione con il livello di confidenza più alto e la invia all'applicazione web.

Prodotti utilizzati

Questa architettura di riferimento utilizza i seguenti prodotti e strumenti Google Cloud :

Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
Gemini Enterprise Agent Platform: una piattaforma completa che ti consente di creare, scalare, gestire e ottimizzare agenti AI di livello enterprise.
Gemini : una famiglia di modelli di AI multimodale sviluppati da Google.

BigQuery: un data warehouse aziendale che ti aiuta a gestire e analizzare i dati con funzionalità integrate come machine learning, analisi geospaziale e business intelligence.
Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.
Server MCP Google Cloud: servizi remoti gestiti da Google che implementano il Model Context Protocol (MCP) per fornire alle applicazioni AI l'accesso a Google e ai prodotti e servizi Google Cloud .
Model Context Protocol (MCP): uno standard open source per connettere le applicazioni AI a sistemi esterni.
Agent Development Kit (ADK): un insieme di strumenti e librerie per sviluppare, testare e implementare agenti AI.

Per informazioni su come selezionare componenti alternativi per il tuo sistema di AI agentica, inclusi framework, runtime dell'agente, strumenti, memoria e pattern di progettazione, consulta Scegliere i componenti dell'architettura di AI agentica.

Caso d'uso

Questa architettura è progettata per casi d'uso che sintetizzano diversi dati multimodali per attività di classificazione e rilevamento. Per una maggiore precisione e scalabilità, l'architettura utilizza un sistema di AI multi-agente anziché un approccio monolitico a singolo agente. Questo pattern di progettazione fornisce istruzioni mirate, evita direttive contrastanti, consente set di strumenti più piccoli per decisioni più rapide e supporta aggiornamenti indipendenti, il che porta a risultati più solidi e sofisticati.

Di seguito sono riportati alcuni esempi di casi d'uso per l'architettura descritta in questo documento:

Diagnosi medica: fornisci valutazioni diagnostiche complete eseguendo il deployment di agenti specializzati per analizzare in modo indipendente immagini mediche, sintomi dei pazienti e risultati di laboratorio. Il sistema di AI riassume questi risultati in base a una soglia di confidenza determinata per fornire approfondimenti fondati e verificabili per i medici.
Rilevamento delle frodi: rileva e segnala potenziali frodi eseguendo il deployment di agenti per analizzare in modo indipendente i modelli di comportamento degli utenti e i dati delle transazioni, come ricevute scansionate e fatture del commerciante. Confrontando le prove visive dei documenti con l'attività di rete digitale, il sistema identifica le discrepanze e segnala le transazioni in cui un singolo agente identifica un indicatore sospetto.
Elaborazione dei documenti: automatizza la classificazione e l'estrazione di informazioni dai documenti eseguendo il deployment di agenti specializzati per il riconoscimento ottico dei caratteri (OCR), la classificazione dei documenti e l'estrazione dei dati. Per supportare l'elaborazione ad alta affidabilità, il sistema di AI richiede che tutti gli agenti concordino sull'output.
Controllo qualità: classifica la qualità del prodotto o rileva anomalie implementando agenti specializzati per l'ispezione visiva, l'analisi dei dati dei sensori e il controllo delle specifiche. Il sistema determina un risultato positivo o negativo in base a una soglia di confidenza determinata tra gli agenti.

Considerazioni sulla progettazione

Per implementare questa architettura per la produzione, tieni presente i seguenti suggerimenti:

Sicurezza dell'agente: per limitare la capacità di un agente di intraprendere azioni pericolose, crea un'identità dell'agente e poi proteggi l'accesso ai server MCP utilizzando gli attributi Identity and Access Management (IAM). Applicando il principio del privilegio minimo, puoi contribuire a garantire che il tuo sistema di AI agentica si comporti come previsto e impedisca l'accesso in lettura/scrittura non intenzionale alle tue risorse di produzione.
Sicurezza Ingress:per controllare l'accesso all'applicazione, disabilita l'URL run.app predefinito del servizio Cloud Run frontend e configura un bilanciatore del carico delle applicazioni esterno regionale. Oltre a bilanciare il carico del traffico in entrata verso l'applicazione, il bilanciatore del carico gestisce i certificati SSL. Per una maggiore protezione, utilizza i criteri di sicurezza di Google Cloud Armor per fornire il filtro delle richieste, la protezione dagli attacchi DDoS e limitazione di frequenza per il servizio.
Sicurezza delle immagini container:per garantire che venga eseguito il deployment su Cloud Run solo delle immagini container autorizzate, utilizza Autorizzazione binaria. Per identificare e mitigare i rischi per la sicurezza nelle immagini container, esegui automaticamente le scansioni delle vulnerabilità utilizzando Artifact Analysis. Per saperne di più, consulta la Panoramica della scansione dei container.
Prompt a costi contenuti: la lunghezza dei prompt (input) e delle risposte generate (output) influisce direttamente su prestazioni e costi. Scrivi prompt brevi, diretti e che forniscano un contesto sufficiente. Per saperne di più, consulta le best practice per la progettazione dei prompt.
Costi di archiviazione:per controllare i costi di archiviazione, puoi scegliere la classe di archiviazione Standard e attivare Gestione del ciclo di vita degli oggetti e Autoclass. Queste funzionalità ti aiutano a ottimizzare i costi spostando o eliminando automaticamente i dati tra le classi di archiviazione in base ai tuoi modelli di accesso o alle regole che imposti.
Sicurezza dello spazio di archiviazione: Cloud Storage supporta due metodi per controllare l'accesso degli utenti ai bucket e agli oggetti: IAM e elenchcontrollo dell'accessoso (ACL). Nella maggior parte dei casi, consigliamo di utilizzare IAM, che consente di concedere autorizzazioni a livello di bucket e progetto. Per saperne di più, consulta la Panoramica del controllo dell'accesso.
Allocazione delle risorse:a seconda dei requisiti di prestazioni, configura i limiti di memoria e i limiti di CPU da allocare al servizio Cloud Run. Per ulteriori indicazioni sull'ottimizzazione delle prestazioni, consulta Suggerimenti generali per lo sviluppo di Cloud Run.

Per informazioni sui fattori di progettazione e sulle best practice, nonché per consigli sulla creazione e sul deployment di un sistema di AI multi-agente, consulta Sistema di AI multi-agente in Google Cloud.

Deployment

Per eseguire il deployment di un'implementazione di esempio di questa architettura, prova il codelab Way Back Home di livello 1.

Passaggi successivi

Scopri come ospitare agenti AI su Cloud Run.
Scopri come creare ed eseguire il deployment di un server MCP remoto su Cloud Run.
Scopri come scegliere i componenti dell'architettura dell'AI agentica.
(Video) Guarda il podcast The Agent Factory sulla creazione di strumenti personalizzati per gli agenti.
Esplora le risorse di apprendimento per creare ed eseguire il deployment di agenti di livello enterprise con Gemini Enterprise Agent Ready (GEAR).
Esplora altre guide all'architettura dell'AI agentica.
Per una panoramica dei principi e dei consigli architetturali specifici per i workload di AI e ML in Google Cloud, consulta la prospettiva AI e ML nel framework Well-Architected.
Per ulteriori architetture di riferimento, diagrammi e best practice, esplora Cloud Architecture Center.

Collaboratori

Autore: Samantha He | Technical Writer

Altri collaboratori:

Amina Mansour | Head of Cloud Platform Evaluations Team
Andrey Shakirov | Solutions Architect, Google Cloud
Ayo Adedeji | Developer Relations Engineer
Christina Lin | Developer Relations Engineer Manager
Kumar Dhanagopal | Cross-Product Solution Developer
Ryan Pei | Product Manager, Google Cloud

Caso d'uso dell'AI agentica: classifica i dati multimodali Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.