Informazioni sui prodotti di dati

Questo documento descrive l'architettura e i concetti chiave dei prodotti di dati in Knowledge Catalog (in precedenza Dataplex Universal Catalog).

Un prodotto di dati è una raccolta logica e curata di asset di dati, formalmente pacchettizzata per garantirne la rilevabilità, l'affidabilità e l'accessibilità. Le funzionalità principali di un prodotto di dati includono le seguenti:

  • Organizzare gli asset del catalogo in un'unità logica che risolve un problema aziendale specifico e consente di ottenere insight più rapidamente.
  • Distribuire con contesto, inclusi descrizione, documentazione e aspetti.
  • Stabilire l'affidabilità con i contratti che consentono ai produttori di dati di fornire garanzie ai consumer di dati.
  • Fornire un flusso di lavoro self-service per consentire ai consumer di dati di valutare i prodotti di dati e accedere ai dati.

Concetti fondamentali

Questa sezione descrive i concetti chiave e le terminologie relativi ai prodotti di dati.

Prodotto di dati

Un raggruppamento logico e curato di asset di dati, formalmente pacchettizzato per essere rilevabile, affidabile e accessibile per la risoluzione di problemi aziendali specifici.

Asset

Un puntatore a una risorsa di dati fisica, come un set di dati, una tabella o una vista BigQuery. Un prodotto di dati contiene uno o più asset.

Gruppo di accesso

I gruppi di accesso semplificano la gestione delle autorizzazioni per il prodotto di dati. Mappano i ruoli intuitivi (come Reader o Analyst) ai gruppi Google o ai service account sottostanti. Questa astrazione consente ai proprietari dei prodotti di dati di gestire l'accesso a livello concettuale e aiuta i consumer di prodotti di dati a richiedere il livello di accesso appropriato.

  • I proprietari dei prodotti di dati configurano i gruppi di accesso e assegnano loro autorizzazioni specifiche per gli asset.

  • I consumer di prodotti di dati utilizzano questi gruppi per richiedere l'accesso al prodotto di dati.

Proprietario del prodotto di dati o produttore di dati

La persona o il team responsabile della creazione e della gestione dei prodotti di dati. Ciò include la gestione della qualità, dell'accesso e della documentazione.

Consumer di prodotti di dati

La persona, il team o l'agente AI che utilizza i prodotti di dati per generare insight.

Contratto

Un accordo tra il proprietario del prodotto di dati e i suoi consumer. Questo accordo stabilisce aspettative chiare definendo termini specifici per la modalità di fornitura e utilizzo dei dati, ad esempio la pianificazione degli aggiornamenti e gli standard di qualità.

Caso d'uso di esempio

Considera un data scientist che analizza un'attività di e-commerce. Il suo obiettivo è trovare il valore medio dell'ordine (AOV) in base all'origine del traffico e verificare se esiste una correlazione tra l'età dell'utente e le dimensioni dell'ordine. Per farlo, deve combinare i dati di più tabelle, ad esempio order_details, user_traffic e user_demographics.

In una configurazione convenzionale, questo processo crea attrito. Per generare insight, il data scientist deve prima scoprire le tabelle corrette nel vasto panorama di dati dell'organizzazione, quindi contattare ogni proprietario dei dati, giustificare la richiesta di accesso e attendere l'approvazione.

Con i prodotti di dati, i proprietari dei dati possono semplificare questa esperienza pacchettizzando gli asset pertinenti in un unico prodotto denominato "Dati aziendali di e-commerce". Questo pacchetto include:

  • Asset

    • Tabelle BigQuery order_details e user_traffic (contenenti dati storici sugli ordini e origini del traffico)
    • Vista BigQuery user_demographics (che fornisce i dettagli dell'utente con i dati PII esclusi)
  • Gruppi di accesso

    • Gruppi Reader e Writer predefiniti per semplificare le richieste di accesso
  • Contratto

    • Un contratto che definisce la frequenza di aggiornamento dei dati (ad esempio, settimanale alle 8:00 PST)
  • Contesto

    • Documentazione con query di esempio e altri dettagli
    • Metadati aggiuntivi per descrivere la sensibilità dei dati

I data scientist possono ora scoprire questo prodotto di dati come un'unica unità logica. In questo modo possono generare con sicurezza insight per rispondere a domande come "Qual è il valore medio dell'ordine per ogni origine del traffico?", rivelando in definitiva quali origini generano i clienti di maggior valore.

Flusso utente del prodotto di dati

Il ciclo di vita del prodotto di dati in Knowledge Catalog prevede due percorsi utente principali: uno per il proprietario (o produttore) del prodotto di dati che crea e gestisce i dati e uno per il consumer del prodotto di dati che li scopre e li utilizza.

Percorso del proprietario del prodotto di dati

Questo percorso si concentra sul pacchettizzazione, sulla protezione e sulla governance dei prodotti di dati per garantirne l'affidabilità e l'accessibilità.

  • Crea: definisci il prodotto di dati e includi gli asset. Sono incluse le seguenti azioni:

    • Configura il nome, il progetto, la regione e la descrizione univoci.
    • Aggiungi asset come tabelle, set di dati o viste BigQuery.
    • Configura i gruppi di accesso (ad esempio, Analyst o Reader) e mappali ai gruppi Google o ai service account sottostanti per semplificare la gestione delle autorizzazioni.
    • Assegna i ruoli IAM necessari a questi gruppi di accesso per gli asset specifici.
    • Aggiungi un contratto (un aspetto di sistema) per comunicare formalmente la cadenza, la frequenza e la soglia di aggiornamento dei dati concordate.

    Per saperne di più, consulta Creare prodotti di dati.

  • Gestisci: aggiorna il prodotto di dati e assicurati che sia rilevabile. Sono incluse le seguenti azioni:

    • Aggiorna i dettagli di base, gli asset, le autorizzazioni e gli aspetti supplementari (metadati) e la documentazione RTF.
    • Concedi ai consumer l'accesso per scoprire e richiedere l'accesso ai prodotti di dati.

    Per saperne di più, consulta Gestire i prodotti di dati.

Percorso del consumer di prodotti di dati

Questo percorso si concentra sulla ricerca rapida di dati attendibili e sull'ottenimento delle autorizzazioni necessarie per utilizzarli.

  • Scopri: trova dati pertinenti e attendibili per un problema aziendale specifico. Sono incluse le seguenti azioni:

    • Utilizza la ricerca di Knowledge Catalog con parole chiave o linguaggio naturale per trovare il prodotto di dati pacchettizzato.
    • Esamina la panoramica, gli asset, il contratto e altri aspetti del prodotto di dati per determinarne l'idoneità all'uso.

    Per saperne di più, consulta Cercare prodotti di dati.

  • Richiedi l'accesso: chiedi al proprietario del prodotto di dati l'autorizzazione per accedere ai dati.

    Per saperne di più, consulta Richiedere l'accesso ai prodotti di dati.

  • Utilizza: accedi agli asset sottostanti per generare insight. È inclusa la seguente azione:

    • Una volta approvato, puoi accedere al prodotto e ai relativi asset. Ad esempio, se l'asset è una tabella BigQuery, puoi andare a BigQuery Studio ed eseguire query sui dati direttamente.

    • Per i flussi di lavoro di applicazioni e sviluppo che operano al di fuori di Google Cloud, puoi esporre il prodotto di dati utilizzando un gateway di metadati esterni. Per saperne di più, consulta Utilizzare il server MCP remoto di Knowledge Catalog.

    Per saperne di più, consulta Utilizzare i prodotti di dati.

Asset supportati

Un prodotto di dati può essere composto da uno o più asset di dati. Sono supportati i seguenti asset di dati:

  • Set di dati di BigQuery
  • Tabelle BigQuery
  • Viste BigQuery
  • Routine BigQuery
  • Modelli BigQuery
  • Tabelle esterne BigQuery
  • Set di dati di Gemini Enterprise Agent Platform
  • Modelli di Gemini Enterprise Agent Platform

Limitazioni

  • Località: i prodotti di dati e gli asset sottostanti devono risiedere nella stessa Google Cloud località.
  • Metadati automatici: la documentazione e gli insight automatici non supportano le regioni multiple us (Stati Uniti) ed eu (Unione Europea).
  • Modelli BigQuery: l'accesso ai modelli BigQuery all'interno di un prodotto di dati viene gestito tramite le condizioni IAM applicate al criterio IAM del set di dati principale. La condivisione dei modelli BigQuery è soggetta alle limitazioni delle condizioni IAM.
  • Quote e limiti: per un elenco completo dei limiti di frequenza API e delle quote di capacità, consulta Quote per le richieste API dei prodotti di dati.

Passaggi successivi