Caso d'uso dell'AI agentica: classifica i dati multimodali

Last reviewed 2026-03-03 UTC

Questo documento fornisce un'architettura di alto livello per un sistema di AI multi-agente di cui è stato eseguito il deployment su Cloud Run che analizza dati multimodali disparati e produce una classificazione ad alta confidenza. Questo approccio esegue la convalida incrociata dei media frammentati confrontando i dati in tempo reale con i dati di riferimento storici per produrre approfondimenti fondati e verificabili.

Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori che creano e gestiscono infrastrutture e applicazioni di AI nel cloud. Questo documento presuppone che tu abbia una conoscenza di base degli agenti e dei modelli di AI. Il documento non fornisce indicazioni specifiche per la progettazione e la codifica di agenti AI.

La sezione Deployment di questo documento elenca esempi di codice che puoi utilizzare per imparare a creare e implementare sistemi di AI multi-agente.

Architettura

Il seguente diagramma mostra l'architettura del sistema di AI multi-agente che utilizza un pattern di progettazione di agenti paralleli per coordinare l'analisi indipendente dei dati multimodali al fine di produrre una singola classificazione.

Architettura di un sistema di AI multi-agente che classifica i dati multimodali.

L'architettura mostra il seguente flusso di dati:

  1. L'applicazione web invia una richiesta all'agente principale per analizzare un insieme di dati multimodali per la classificazione. L'agente principale è un agente coordinatore che riceve le richieste e viene implementato su un servizio Cloud Run.
  2. L'agente principale gestisce la richiesta nel seguente modo:
    1. L'agente root avvia un before_agent_callback per raccogliere le configurazioni dell'ambiente, convalidare l'input utente'utente e salvare i percorsi delle risorse in uno stato della sessione condiviso. Tutti i subagenti possono accedere allo stato della sessione condivisa, il che elimina le chiamate ridondanti per recuperare i dati di stato e riduce la latenza complessiva.
    2. L'agente principale utilizza Gemini su Vertex AI per interpretare la richiesta dell'utente e distribuire le attività a subagenti specializzati che vengono eseguiti in parallelo.
  3. Ogni subagente è specializzato in un determinato dominio e svolge le seguenti attività in modo indipendente:
    1. Gli agenti secondari di analisi di immagini e video interagiscono con server MCP (Model Context Protocol) personalizzati per eseguire le seguenti azioni:
      1. Recupera i dati non strutturati non elaborati archiviati in un bucket Cloud Storage.
      2. Invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
      3. Gemini invia la classificazione suggerita e il livello di confidenza al server MCP personalizzato.
      4. Il server MCP personalizzato inoltra la risposta al subagente.
    2. Il subagent analista dei dati strutturati coordina l'analisi completando le seguenti attività:
      1. Interagisce con il server BigQuery MCP per recuperare dati strutturati e contestuali (come record storici, log eventi o letture dei sensori) archiviati in un set di dati BigQuery.
      2. L'analista dei dati strutturati invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
      3. Gemini invia la classificazione suggerita e il livello di confidenza al subagente.
  4. Ogni subagente invia la classificazione suggerita e il livello di confidenza all'agente principale.
  5. L'agente principale utilizza Gemini per riassumere gli output degli agenti secondari specializzati per produrre una classificazione singola e ad alta affidabilità.
    • Se la maggior parte delle classificazioni degli agenti secondari specializzati corrisponde, l'agente principale invia la classificazione corrispondente all'applicazione web.
    • Se i subagenti non forniscono una classificazione corrispondente, l'agente radice seleziona la classificazione con il livello di confidenza più alto e la invia all'applicazione web.

Prodotti utilizzati

Questa architettura di riferimento utilizza i seguenti prodotti e strumenti: Google Cloud

  • Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
  • Vertex AI: una piattaforma ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare LLM da utilizzare nelle applicazioni basate sull'AI.
  • Gemini: una famiglia di modelli di AI multimodale sviluppati da Google.
  • BigQuery: un data warehouse aziendale che ti aiuta a gestire e analizzare i dati con funzionalità integrate come machine learning, analisi geospaziale e business intelligence.
  • Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.
  • Server MCP di Google Cloud: servizi remoti gestiti da Google che implementano il Model Context Protocol (MCP) per fornire alle applicazioni AI l'accesso ai prodotti e servizi Google e Google Cloud.
  • Model Context Protocol (MCP): uno standard open source per connettere le applicazioni AI a sistemi esterni.
  • Agent Development Kit (ADK): un insieme di strumenti e librerie per sviluppare, testare e distribuire agenti AI.

Per informazioni su come selezionare componenti alternativi per il tuo sistema di AI agentica, inclusi framework, runtime dell'agente, strumenti, memoria e pattern di progettazione, consulta Scegliere i componenti dell'architettura di AI agentica.

Caso d'uso

Questa architettura è progettata per casi d'uso che sintetizzano diversi dati multimodali per attività di classificazione e rilevamento. Per una maggiore precisione e scalabilità, l'architettura utilizza un sistema di AI multi-agente anziché un approccio monolitico a singolo agente. Questo pattern di progettazione fornisce istruzioni mirate, evita direttive contrastanti, consente set di strumenti più piccoli per decisioni più rapide e supporta aggiornamenti indipendenti, il che porta a risultati più solidi e sofisticati.

Di seguito sono riportati alcuni esempi di casi d'uso per l'architettura descritta in questo documento:

  • Diagnosi medica: fornisci valutazioni diagnostiche complete implementando agenti specializzati per analizzare in modo indipendente immagini mediche, sintomi dei pazienti e risultati di laboratorio. Il sistema di AI riassume questi risultati in base a una soglia di confidenza determinata per fornire approfondimenti fondati e verificabili per i medici.
  • Rilevamento delle frodi: rileva e segnala potenziali frodi eseguendo il deployment di agenti per analizzare in modo indipendente i modelli di comportamento degli utenti e i dati delle transazioni, come ricevute scansionate e fatture del commerciante. Confrontando le prove visive dei documenti con l'attività di rete digitale, il sistema identifica le discrepanze e segnala le transazioni in cui un singolo agente identifica un indicatore sospetto.
  • Elaborazione dei documenti: automatizza la classificazione e l'estrazione di informazioni dai documenti eseguendo il deployment di agenti specializzati per il riconoscimento ottico dei caratteri (OCR), la classificazione dei documenti e l'estrazione dei dati. Per supportare l'elaborazione ad alta affidabilità, il sistema di AI richiede che tutti gli agenti concordino sull'output.
  • Controllo qualità: classifica la qualità del prodotto o rileva anomalie implementando agenti specializzati per l'ispezione visiva, l'analisi dei dati dei sensori e il controllo delle specifiche. Il sistema determina un risultato positivo o negativo in base a una soglia di confidenza determinata tra gli agenti.

Considerazioni sulla progettazione

Per implementare questa architettura per la produzione, considera i seguenti suggerimenti:

Per informazioni sui fattori di progettazione e sulle best practice, nonché per consigli sulla creazione e sul deployment di un sistema di AI multi-agente, consulta Sistema di AI multi-agente in Google Cloud.

Deployment

Per eseguire il deployment di un'implementazione di esempio di questa architettura, prova il codelab Way Back Home Level 1.

Passaggi successivi

Collaboratori

Autore: Samantha He | Technical Writer

Altri collaboratori: