Knowledge Catalog per gli agenti AI

Man mano che gli ecosistemi di dati diventano sempre più complessi, le applicazioni di AI richiedono più del semplice accesso ai dati non elaborati. Hanno bisogno del contesto aziendale. Knowledge Catalog rappresenta un'evoluzione di Dataplex, spostando l'attenzione verso l'abilitazione di sistemi di AI e agenti.

Al centro di questa piattaforma, una mappa unificata collega gli asset di dati fisici a semantica aziendale, regole di governance e relazioni di utilizzo. Integrando Knowledge Catalog nei tuoi workflow di AI, puoi ottenere quanto segue:

  • Fonda gli agenti AI per fornire metadati affidabili, aggiornati e contestuali per guidare il ragionamento dell'agente.

  • Ridurre le allucinazioni e garantire che i modelli generativi basino le loro risposte su verità aziendali consolidate.

  • Fornisci un contesto unificato, ovvero una visualizzazione singola e controllata del tuo panorama di dati, agli agenti AI.

Casi d'uso

Knowledge Catalog svolge ruoli distinti nel ciclo di vita dei dati e dell'AI:

  • Sviluppatori di AI e creatori di agenti. Sviluppatori che creano bot o agenti personalizzati (ad esempio utilizzando LangChain o Agent Development Kit (ADK)) che devono eseguire query e comprendere i dati aziendali.

    • Casi d'uso:ricerca e recupero del contesto in linguaggio naturale per consentire agli agenti di lavorare con i dati aziendali; individuazione dei dati agentica.
  • Analisti di dati. Utenti che utilizzano strumenti assistiti dall'AI come Gemini in BigQuery o Looker per trovare i dati e comprenderne il significato aziendale.

    • Casi d'uso:query in linguaggio naturale ed esplorazione conversazionale dei dati.
  • Gestori dati. Esperti del settore che supervisionano l'arricchimento dei metadati basato sull'AI e garantiscono la qualità del contesto del catalogo.

    • Casi d'uso:revisione, cura e promozione di metadati e descrizioni creati con l'AI.

Accedere al contesto di Knowledge Catalog con MCP

Model Context Protocol (MCP) è un bridge standardizzato che consente agli agenti AI e agli strumenti di connettersi facilmente a origini dati come Knowledge Catalog.

Per adattarsi a diversi flussi di lavoro di deployment, Knowledge Catalog offre due tipi di implementazioni MCP. Capire quando utilizzare ciascuna opzione è fondamentale per configurare l'ambiente:

  • Server MCP remoto:quando crei applicazioni cloud-native, esegui il deployment di agenti in ambienti serverless (come Cloud Run) o esegui l'integrazione con servizi gestiti esterni in cui vuoi evitare di gestire l'infrastruttura locale.

  • MCP Toolbox locale:durante lo sviluppo di agenti locali, la prototipazione rapida o quando è necessaria l'integrazione diretta con IDE desktop locali come VS Code o Cursor.

Server MCP remoto

Un endpoint ospitato da Google che consente l'accesso diretto agli strumenti di Knowledge Catalog per applicazioni e servizi di AI (ad esempio, agenti in esecuzione su Cloud Run o servizi esterni come Claude).

  • Endpoint: https://dataplex.googleapis.com/mcp
  • Vantaggi: non è necessario eseguire un server MCP locale; adatto per ambienti serverless.
  • Riferimento: Utilizzare un server MCP remoto

MCP Toolbox locale

Uno strumento a riga di comando che funge da proxy locale tra l'IDE (ad esempio VS Code, Cursor) o gli strumenti locali e Knowledge Catalog.

  • Installazione:file binario scaricabile.
  • Configurazione:in genere comporta un file .mcp.json o di impostazioni nella configurazione del progetto o dell'IDE.
  • Vantaggi: ideale per ambienti di sviluppo sicuri in locale e integrazione con vari IDE.
  • Riferimento: Utilizzare un server MCP locale

Arricchire il contesto per Knowledge Catalog

Per massimizzare il valore di Knowledge Catalog per l'AI, il grafico sottostante deve essere ricco di contesto aziendale. Puoi farlo tramite funzionalità predefinite o arricchimento agentico personalizzato.

Arricchimento predefinito con approfondimenti sui dati

Gli approfondimenti sui dati (basati su Gemini in BigQuery) arricchiscono automaticamente il catalogo, riducendo il problema del "cold start" per le nuove piattaforme di dati. Se abilitata, genera automaticamente quanto segue:

  • Descrizioni a livello di set di dati e di colonna.
  • Grafici delle relazioni tra le tabelle.
  • Query di esempio basate sui pattern di utilizzo storici.

Ciò fornisce una comprensione semantica immediata agli agenti downstream senza richiedere la gestione manuale dei dati.

Ad esempio, per una tabella denominata telco_churn, gli approfondimenti sui dati possono generare automaticamente descrizioni per campi come Tenure e MonthlyCharges, dedurre relazioni con le tabelle dei clienti e pubblicare una query di esempio, ad esempio per trovare i tassi di abbandono per segmento, nel catalogo.

Arricchimento del contesto personalizzato con gli agenti

Per le organizzazioni con knowledge base specializzate, puoi creare agenti di arricchimento personalizzati per importare metadati da fonti personalizzate come wiki interni, repository di codice o sistemi proprietari.

  • API Knowledge Catalog (operazioni CRUD): utilizzale per aggiungere o aggiornare i metadati nel catalogo.

    • Ad esempio, chiama il metodo API UpdateEntry per allegare programmaticamente un aspetto di riepilogo a una tabella utilizzando la documentazione estratta da un sistema interno.
  • Strumenti come l'ADK:utilizzali per creare gli agenti di arricchimento.

    • Ad esempio, crea un agente ADK basato su Java che utilizza strumenti interni per estrarre pagine wiki tecniche, utilizza un LLM per analizzarle in termini di glossario e sincronizza i termini con Knowledge Catalog.
  • Operazioni di esportazione e importazione:utilizzale per aggiornamenti collettivi dei metadati con revisione.

    • Ad esempio, esporta un glossario aziendale generato dall'AI in un file, chiedi ai responsabili dei dati di rivedere e perfezionare le definizioni in collaborazione e importa il file definitivo nel catalogo.

Passaggi successivi