Implementare workflow di analisi agentica per i dati distribuiti

Last reviewed 2026-06-09 UTC

Questo documento fornisce un'architettura di alto livello per l'implementazione di flussi di lavoro di analisi cross-cloud che utilizzano agenti AI. Il documento è destinato ad architetti cloud, data engineer e data scientist che vogliono utilizzare l'AI agentica per i flussi di lavoro di analisi in data lake multi-cloud, data warehouse strutturati e datastore non strutturati. Il documento presuppone che tu abbia una conoscenza di base dei concetti di AI agentica, analisi dei dati e architettura cloud.

La sezione Deployment di questo documento fornisce un codelab che puoi utilizzare per imparare a creare una soluzione di analisi agentica.

Architettura

Il seguente diagramma mostra un'architettura per una soluzione di analisi agentica che ricava insight aziendali da dati strutturati e non strutturati distribuiti in più datastore e provider di servizi cloud.

Un'architettura che utilizza un ambiente di sviluppo agentico e un modello di AI per analizzare i dati distribuiti in Google Cloud e altri fornitori di servizi cloud.

I componenti di questa architettura sono organizzati nei seguenti livelli:

  • Azioni utente e agentiche

    • Ambiente di sviluppo agentico: i professionisti dei dati, come data engineer e data scientist, inviano richieste in linguaggio naturale utilizzando uno dei seguenti metodi:
      • Un ambiente di sviluppo agentico come Google Antigravity IDE o Microsoft Visual Studio Code.
      • Un agente CLI come Gemini CLI, Claude Code o Codex.
    • Estensione Google Cloud Data Agent Kit: l' estensione consente agli agenti di accedere ai dati attendibili Google Cloud caricando le competenze appropriate e connettendosi ai server MCP remoti per i Google Cloud servizi.
    • Foundation model: per generare insight aziendali da dati e contesti attendibili, l'ambiente di sviluppo agentico utilizza un foundation model, ad esempio un modello della famiglia Gemini. Il modello utilizza le competenze appropriate dell'estensione Data Agent Kit e gli strumenti del server MCP richiesti per implementare flussi di lavoro di analisi complessi.
  • Flussi di lavoro di analisi

  • Datastore attendibili

    • Dati in Google Cloud: BigQuery funge da data warehouse centrale per i dati strutturati, inclusi gli estratti strutturati di dati non strutturati in Cloud Storage.
    • Dati da origini esterne: l'architettura mostra origini dati esterne, come i dati nei bucket Amazon S3 e i metadati in Databricks Unity Catalog. Cross-Cloud Interconnect fornisce una connettività dedicata a elevata larghezza di banda tra Google Cloud e altri provider di servizi cloud.

Prodotti utilizzati

L'architettura utilizza i seguenti Google Cloud prodotti e strumenti:

  • Google Cloud Data Agent Kit: estensioni degli agenti per consentire a data scientist, data engineer e sviluppatori di app per i dati di gestire l'intero ciclo di vita dei dati all'interno dei loro ambienti di sviluppo agentici preferiti.
  • BigQuery: un data warehouse aziendale che ti aiuta a gestire e analizzare i tuoi dati con funzionalità integrate come machine learning, analisi geospaziale e business intelligence.
  • Managed Service for Apache Spark: un servizio gestito che esegue workload batch Apache Spark su un'infrastruttura di calcolo gestita.
  • Lakehouse for Apache Iceberg: un motore di archiviazione ad alte prestazioni che ti consente di creare data lakehouse aperti e fornisce un'interfaccia unificata per analisi avanzate e AI.
  • Knowledge Catalog: un servizio basato sull'AI che fornisce un catalogo unificato di asset di dati con metadati intelligenti e funzionalità di governance
  • Gemini: una famiglia di modelli di AI multimodale sviluppati da Google.
  • Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. È possibile accedere ai dati dall'interno e dall'esterno Google Cloud, e vengono replicati in più località per la ridondanza.
  • Cross-Cloud Interconnect: un servizio che fornisce una connettività dedicata a elevata larghezza di banda e bassa latenza tra Google Cloud e altri provider di servizi cloud.
  • Server MCP Google Cloud: servizi remoti gestiti da Google che implementano il protocollo Model Context Protocol (MCP) per fornire alle applicazioni AI l'accesso a Google e ai Google Cloud prodotti e servizi.

Casi d'uso

L'architettura descritta in questo documento è adatta ai seguenti casi d'uso:

  • Analisi dei dati multi-cloud: esegui query e analizza in modo efficiente i dati distribuiti tra Google Cloud e altri provider di servizi cloud senza spostare i file o creare pipeline ETL (estrazione, trasformazione, caricamento) complesse. Ad esempio, un responsabile marketing di un rivenditore globale può analizzare l'efficacia delle campagne di marketing unendo i dati sulla fedeltà dei clienti in Amazon S3 con i dati sulle operazioni di marketing in BigQuery.
  • Rilevamento intelligente dei dati: utilizza prompt in linguaggio naturale e agenti AI per scoprire, eseguire query ed elaborare set di dati federati in più ambienti. Ad esempio, uno specialista degli acquisti può determinare le cause comuni delle interruzioni della catena di fornitura in base ai dati strutturati in un sistema di gestione della catena di fornitura (SCM) combinati con gli insight provenienti da comunicazioni email non strutturate e report di valutazione dei danni.
  • Estrazione di dati strutturati da origini non strutturate: esegui la scansione di grandi volumi di dati non strutturati, ricava metadati semantici e archivia gli estratti di dati strutturati in BigQuery per l'analisi downstream. Ad esempio, un controllore delle operazioni può analizzare in modo efficiente le spese estraendo i dati strutturati da migliaia di fatture archiviate in un formato non strutturato, ad esempio file PDF.

Deployment

Per scoprire come creare una soluzione di analisi agentica utilizzando l' estensione Data Agent Kit, consulta il codelab, Raw data to forecasting in seconds with AI agents. Il codelab mostra come l'estensione Data Agent Kit ti consente di analizzare in modo efficiente i dati dall'interno del tuo ambiente di sviluppo agentico preferito. Tutti i dati di esempio utilizzati dal codelab sono archiviati in Google Cloud.

Passaggi successivi

Collaboratori

Autore: Kumar Dhanagopal | Cross-Product Solution Developer

Altri collaboratori: