Man mano che gli ecosistemi di dati diventano sempre più complessi, le applicazioni AI richiedono più del semplice accesso ai dati non elaborati. Hanno bisogno di un contesto aziendale. Knowledge Catalog rappresenta un'evoluzione di Dataplex, spostando l'attenzione verso il potenziamento dell'AI e dei sistemi agenti.
Al centro di questa piattaforma, una mappa unificata collega le risorse dati fisiche con la semantica aziendale, le regole di governance e le relazioni di utilizzo. Integrando Knowledge Catalog nei workflow AI, puoi ottenere quanto segue:
Fonda gli agenti AI per fornire metadati affidabili, aggiornati e contestuali per guidare il ragionamento degli agenti.
Riduci le allucinazioni e assicurati che i modelli generativi basino le loro risposte su verità aziendali consolidate.
Fornisci un contesto unificato, una singola visualizzazione regolamentata del panorama dei dati, agli agenti AI.
Casi d'uso
Knowledge Catalog svolge ruoli distinti durante il ciclo di vita dei dati e dell'AI:
Sviluppatori AI e creatori di agenti. Sviluppatori che creano bot o agenti personalizzati (ad esempio utilizzando LangChain o l'Agent Development Kit (ADK)) che devono eseguire query e comprendere i dati aziendali.
- Casi d'uso: ricerca e recupero di contesto in linguaggio naturale per consentire agli agenti di lavorare con i dati aziendali; rilevamento dei dati agenti.
Analisti di dati. Utenti che utilizzano strumenti basati sull'AI come Gemini in BigQuery o Looker per trovare i dati e comprenderne il significato aziendale.
- Casi d'uso: query in linguaggio naturale ed esplorazione dei dati conversazionale.
Responsabili dei dati. Esperti di dominio che supervisionano l'arricchimento dei metadati basato sull'AI e garantiscono la qualità del contesto del catalogo.
- Casi d'uso: revisione, cura e promozione di metadati e descrizioni generate dall'AI.
Accedere al contesto di Knowledge Catalog con MCP
Model Context Protocol (MCP) è un bridge standardizzato che consente agli agenti e agli strumenti AI di connettersi senza problemi a origini dati come Knowledge Catalog.
Per supportare diversi workflow di deployment, Knowledge Catalog offre due tipi di implementazioni MCP. Comprendere quando utilizzare ciascuna è fondamentale per configurare l'ambiente:
Server MCP remoto: quando crei applicazioni cloud-native, esegui il deployment di agenti in ambienti serverless (come Cloud Run) o esegui l'integrazione con servizi gestiti esterni in cui vuoi evitare di gestire l'infrastruttura locale.
Toolbox MCP locale: durante lo sviluppo di agenti locali, la prototipazione rapida o quando hai bisogno dell'integrazione diretta con gli IDE desktop locali come VS Code o Cursor.
Server MCP remoto
Un endpoint ospitato da Google che consente l'accesso diretto agli strumenti di Knowledge Catalog per applicazioni e servizi AI (ad esempio, agenti in esecuzione su Cloud Run o servizi esterni come Claude).
- Endpoint:
https://dataplex.googleapis.com/mcp - Vantaggi: non è necessario eseguire un server MCP locale; adatto per ambienti serverless.
- Riferimento: utilizzare un server MCP remoto
Toolbox MCP locale
Uno strumento a riga di comando che funge da proxy locale tra l'IDE (ad esempio VS Code, Cursor) o gli strumenti locali e Knowledge Catalog.
- Installazione: programma binario scaricabile.
- Configurazione: in genere include un file
.mcp.jsono di impostazioni nella configurazione del progetto o dell'IDE. - Vantaggi: ideale per ambienti di sviluppo sicuri in locale e per l'integrazione con vari IDE.
- Riferimento: utilizzare un server MCP locale
Arricchire il contesto di Knowledge Catalog
Per massimizzare il valore di Knowledge Catalog per l'AI, il grafico sottostante deve essere ricco di contesto aziendale. Puoi farlo tramite funzionalità predefinite o arricchimento agenti personalizzato.
Arricchimento predefinito con analisi dei dati
Gli insight sui dati (basati su Gemini in BigQuery) arricchiscono automaticamente il catalogo, riducendo il problema dell'avvio a freddo per le nuove piattaforme dati. Se abilitata, genera automaticamente quanto segue:
- Descrizioni a livello di set di dati e di colonna.
- Grafici delle relazioni tra le tabelle.
- Query di esempio basate sui pattern di utilizzo storici.
In questo modo, gli agenti downstream comprendono immediatamente la semantica senza richiedere la gestione manuale dei dati.
Ad esempio, per una tabella denominata telco_churn, l'analisi dei dati può generare automaticamente descrizioni per campi come Tenure e MonthlyCharges, dedurre le relazioni con le tabelle dei clienti e pubblicare una query di esempio, ad esempio trovare i tassi di abbandono per segmento, nel catalogo.
Arricchimento del contesto personalizzato con gli agenti
Per le organizzazioni con knowledge base specializzate, puoi creare agenti di arricchimento personalizzati per importare i metadati da origini personalizzate come wiki interni, repository di codice o sistemi proprietari.
API Knowledge Catalog (operazioni CRUD): utilizzale per aggiungere o aggiornare i metadati nel catalogo.
- Ad esempio, chiama il metodo API
UpdateEntryper collegare a livello di programmazione un aspetto di panoramica a una tabella utilizzando la documentazione estratta da un sistema interno.
- Ad esempio, chiama il metodo API
Strumenti come l'ADK: utilizzali per creare gli agenti di arricchimento.
- Ad esempio, crea un agente ADK basato su Java che utilizza strumenti interni per estrarre le pagine wiki tecniche, utilizza un LLM per analizzarle in termini di glossario e sincronizza i termini con Knowledge Catalog.
Operazioni di esportazione e importazione: utilizzale per gli aggiornamenti collettivi dei metadati con revisione.
- Ad esempio, esporta un glossario aziendale generato dall'AI in un file, chiedi ai responsabili dei dati di rivedere e perfezionare le definizioni in modo collaborativo e importa il file finalizzato nel catalogo.