Caso d'uso dell'AI agentica: classifica i dati multimodali

Last reviewed 2026-03-03 UTC

Questo documento fornisce un'architettura di alto livello per un sistema di AI multi-agente di cui è stato eseguito il deployment su Cloud Run che analizza dati multimodali disparati e produce una classificazione ad alta confidenza. Questo approccio convalida in modo incrociato i contenuti multimediali frammentati confrontando i dati live con i dati di fatto storici per produrre approfondimenti basati su dati di fatto e verificabili.

Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori che creano e gestiscono l'infrastruttura e le applicazioni AI nel cloud. Questo documento presuppone che tu abbia una conoscenza di base degli agenti e dei modelli AI. Il documento non fornisce indicazioni specifiche per la progettazione e la codifica degli agenti AI.

La sezione Deployment di questo documento elenca esempi di codice che puoi utilizzare per scoprire come creare ed eseguire il deployment di sistemi di AI multi-agente.

Architettura

Il seguente diagramma mostra l'architettura del sistema di AI multi-agente che utilizza un pattern di progettazione di agenti paralleli per coordinare l'analisi indipendente dei dati multimodali al fine di produrre una singola classificazione.

Architettura di un sistema di AI multi-agente che classifica i dati multimodali.

L'architettura mostra il seguente flusso di dati:

  1. L'applicazione web invia una richiesta all'agente root per analizzare un insieme di dati multimodali per la classificazione. L'agente root è un agente coordinatore che riceve le richieste e di cui è stato eseguito il deployment su un servizio Cloud Run.
  2. L'agente root gestisce la richiesta nel seguente modo:
    1. L'agente root avvia un before_agent_callback per raccogliere le configurazioni dell'ambiente, convalidare input utente e salvare i percorsi delle risorse in uno stato di sessione condiviso . Tutti i sottoagenti possono accedere allo stato di sessione condiviso, il che elimina le chiamate ridondanti per recuperare i dati di stato e riduce la latenza complessiva.
    2. L'agente root utilizza Gemini su Vertex AI per interpretare la richiesta dell'utente e distribuire le attività ai sottoagenti specializzati che vengono eseguiti in parallelo.
  3. Ogni sottoagente è specializzato in un determinato dominio ed esegue le seguenti attività in modo indipendente:
    1. I sottoagenti di analisi di immagini e video interagiscono con server Model Context Protocol (MCP) personalizzati per eseguire le seguenti azioni:
      1. Recupera i dati non strutturati non elaborati archiviati in un bucket Cloud Storage.
      2. Invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
      3. Gemini invia la classificazione suggerita e il livello di confidenza al server MCP personalizzato.
      4. Il server MCP personalizzato inoltra la risposta al sottoagente.
    2. Il sottoagente di analisi dei dati strutturati orchestra l'analisi completando le seguenti attività:
      1. Interagisce con il server MCP BigQuery per recuperare i dati strutturati e contestuali (ad esempio record storici, log degli eventi o letture dei sensori) archiviati in un set di dati BigQuery.
      2. L'analista dei dati strutturati invia una richiesta a Gemini per interpretare i dati di input, classificarli e calcolare un livello di confidenza.
      3. Gemini invia la classificazione suggerita e il livello di confidenza al sottoagente.
  4. Ogni sottoagente invia la classificazione suggerita e il livello di confidenza all'agente root.
  5. L'agente root utilizza Gemini per riepilogare gli output dei sottoagenti specializzati al fine di produrre una singola classificazione ad alta confidenza.
    • Se la maggior parte delle classificazioni dei sottoagenti specializzati corrisponde, l'agente root invia la classificazione corrispondente all'applicazione web.
    • Se i sottoagenti non forniscono una classificazione corrispondente, l'agente root seleziona la classificazione con il livello di confidenza più alto e la invia all'applicazione web.

Prodotti utilizzati

Questa architettura di riferimento utilizza i seguenti Google Cloud prodotti e strumenti:

  • Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
  • Vertex AI: una piattaforma di ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare gli LLM per l'utilizzo nelle applicazioni basate sull'AI.
  • Gemini: una famiglia di modelli di AI multimodale sviluppati da Google.
  • BigQuery: un data warehouse aziendale che ti aiuta a gestire e analizzare i tuoi dati con funzionalità integrate come l'analisi geospaziale di machine learning e la business intelligence.
  • Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. È possibile accedere ai dati dall'interno e dall'esterno Google Cloud, e vengono replicati tra le località per la ridondanza.
  • Server MCP Google Cloud: servizi remoti gestiti da Google che implementano Model Context Protocol (MCP) per fornire alle applicazioni AI l'accesso ai prodotti e ai servizi Google e Google Cloud.
  • Model Context Protocol (MCP): uno standard open source per connettere le applicazioni AI a sistemi esterni.
  • Agent Development Kit (ADK): un insieme di strumenti e librerie per sviluppare, testare ed eseguire il deployment di agenti AI.

Per informazioni su come selezionare componenti alternativi per il tuo sistema di AI agentica inclusi framework, runtime dell'agente, strumenti, memoria e pattern di progettazione, consulta Scegliere i componenti dell'architettura di AI agentica.

Caso d'uso

Questa architettura è progettata per i casi d'uso che sintetizzano diversi dati multimodali per le attività di classificazione e rilevamento. Per una maggiore accuratezza e scalabilità, l'architettura utilizza un sistema di AI multi-agente anziché un approccio monolitico a singolo agente. Questo pattern di progettazione fornisce istruzioni mirate, evita direttive in conflitto, consente set di strumenti più piccoli per decisioni più rapide e supporta aggiornamenti indipendenti, il che porta a risultati più solidi e sofisticati.

Di seguito sono riportati alcuni esempi di casi d'uso per l'architettura descritta in questo documento:

  • Diagnosi medica: fornisci valutazioni diagnostiche complete eseguendo il deployment di agenti specializzati per analizzare in modo indipendente immagini mediche, sintomi del paziente e risultati di laboratorio. Il sistema di AI riepiloga questi risultati in base a una soglia di confidenza determinata per fornire approfondimenti basati su dati di fatto e verificabili per i medici.
  • Rilevamento delle frodi: rileva e contrassegna potenziali frodi eseguendo il deployment di agenti per analizzare in modo indipendente i pattern di comportamento degli utenti e i dati delle transazioni, come ricevute scansionate e fatture dei commercianti. Confrontando le prove visive dei documenti con l'attività di rete digitale, il sistema identifica le discrepanze e contrassegna tutte le transazioni in cui un singolo agente identifica un indicatore sospetto.
  • Elaborazione dei documenti: automatizza la classificazione e l'estrazione delle informazioni dai documenti eseguendo il deployment di agenti specializzati per il riconoscimento ottico dei caratteri (OCR), la classificazione dei documenti e l'estrazione dei dati. Per supportare l'elaborazione ad alta confidenza, il sistema di AI richiede che tutti gli agenti siano d'accordo sull'output.
  • Controllo qualità: classifica la qualità del prodotto o rileva le anomalie eseguendo il deployment di agenti specializzati per l'ispezione visiva, l'analisi dei dati dei sensori e il controllo delle specifiche. Il sistema determina un risultato positivo o negativo in base a una soglia di confidenza determinata tra gli agenti.

Note sul layout

Per implementare questa architettura per la produzione, tieni presente i seguenti consigli:

Per informazioni sui fattori di progettazione e sulle best practice e per consigli sulla creazione e sul deployment di un sistema di AI multi-agente, consulta Sistema di AI multi-agente in Google Cloud.

Deployment

Per eseguire il deployment di un'implementazione di esempio di questa architettura, prova il codelab Way Back Home Level 1.

Passaggi successivi

Collaboratori

Autore: Samantha He | Technical Writer

Altri collaboratori: