Informazioni sui prodotti di dati

Questo documento descrive l'architettura e i concetti chiave dei prodotti di dati in Knowledge Catalog (in precedenza Dataplex Universal Catalog).

Un prodotto di dati è una raccolta logica e curata di asset di dati, confezionata formalmente per garantirne la rilevabilità, l'affidabilità e l'accessibilità. Le funzionalità principali di un prodotto di dati includono le seguenti:

  • Organizzare gli asset del catalogo in un'unità logica che risolve un problema aziendale specifico e consente di ottenere informazioni più rapidamente.
  • Distribuire con contesto che include una descrizione, documentazione e aspetti.
  • Stabilire la fiducia con i contratti che consentono ai produttori di dati di fornire garanzie ai consumatori di dati.
  • Fornire un flusso di lavoro self-service per consentire ai consumatori di dati di valutare i prodotti di dati e accedere ai dati.

Concetti fondamentali

Questa sezione descrive i concetti e le terminologie chiave relativi ai prodotti di dati.

Prodotto di dati

Un raggruppamento logico e curato di asset di dati, confezionato formalmente per essere rilevabile, affidabile e accessibile per la risoluzione di problemi aziendali specifici.

Asset

Un puntatore a una risorsa di dati fisica, come un set di dati, una tabella o una vista BigQuery. Un prodotto di dati contiene uno o più asset.

Gruppo di accesso

I gruppi Google vengono configurati dai proprietari dei prodotti di dati e utilizzati dai consumatori dei prodotti di dati per richiedere l'accesso. Le autorizzazioni per gli asset vengono assegnate a questi gruppi di accesso.

I gruppi di accesso semplificano la gestione delle autorizzazioni per il prodotto di dati. Fungono da alias intuitivi (ad esempio Reader o Analyst) per i gruppi IAM sottostanti. In questo modo, i proprietari dei prodotti di dati possono assegnare le autorizzazioni a un livello elevato e aiutare i consumatori a richiedere il livello di accesso corretto.

Proprietario del prodotto di dati o produttore di dati

La persona o il team responsabile della creazione e della gestione dei prodotti di dati. Ciò include la gestione della qualità, dell'accesso e della documentazione.

Consumatore di prodotti di dati

La persona, il team o l'agente AI che utilizza i prodotti di dati per generare approfondimenti.

Contratto

Un accordo tra il proprietario del prodotto di dati e i suoi consumatori. Questo accordo stabilisce aspettative chiare definendo termini specifici per la modalità di fornitura e utilizzo dei dati, ad esempio la pianificazione di aggiornamento e gli standard di qualità.

Caso d'uso di esempio

Considera un data scientist che analizza un'attività di e-commerce. Il suo obiettivo è trovare il valore medio dell'ordine (AOV) in base all'origine del traffico e verificare se esiste una correlazione tra l'età dell'utente e le dimensioni dell'ordine. Per farlo, deve combinare i dati di più tabelle, ad esempio order_details, user_traffic e user_demographic.

In una configurazione convenzionale, questo processo crea attrito. Per generare approfondimenti, il data scientist deve prima scoprire le tabelle corrette nel vasto panorama di dati dell'organizzazione, quindi contattare ogni proprietario dei dati, giustificare la richiesta di accesso e attendere l'approvazione.

Con i prodotti di dati, i proprietari dei dati possono semplificare questa esperienza confezionando gli asset pertinenti in un unico prodotto denominato "Dati aziendali di e-commerce". Questo pacchetto include:

  • Asset

    • Tabelle BigQuery order_details e user_traffic (contenenti dati storici sugli ordini e origini del traffico)
    • Vista BigQuery user_demographics (che fornisce i dettagli dell'utente con i dati PII esclusi)
  • Gruppi di accesso

    • Gruppi Reader e Writer predefiniti per semplificare le richieste di accesso
  • Contratto

    • Un contratto che definisce la frequenza di aggiornamento dei dati (ad esempio, ogni settimana alle 8:00 PST)
  • Contesto

    • Documentazione con query di esempio e altri dettagli
    • Metadati aggiuntivi per descrivere la sensibilità dei dati

I data scientist possono ora scoprire questo prodotto di dati come un'unica unità logica. In questo modo, possono generare con sicurezza approfondimenti per rispondere a domande come "Qual è il valore medio dell'ordine per ogni origine del traffico?", rivelando in definitiva quali origini generano i clienti di maggior valore.

Flusso utente del prodotto di dati

Il ciclo di vita del prodotto di dati in Knowledge Catalog prevede due percorsi utente chiave: uno per il proprietario (o produttore) del prodotto di dati che crea e gestisce i dati e uno per il consumatore del prodotto di dati che li scopre e li utilizza.

Percorso del proprietario del prodotto di dati

Questo percorso si concentra sul confezionamento, sulla protezione e sulla governance dei prodotti di dati per garantirne l'affidabilità e l'accessibilità.

  • Crea: definisci il prodotto di dati e includi gli asset. Questa operazione prevede le seguenti azioni:

    • Configura il nome, il progetto, la regione e la descrizione univoci.
    • Aggiungi asset come tabelle, set di dati o viste BigQuery.
    • Configura i gruppi di accesso (ad esempio, Analyst o Reader) e mappali ai gruppi Google sottostanti per semplificare la gestione delle autorizzazioni.
    • Assegna i ruoli IAM necessari a questi gruppi di accesso per gli asset specifici.
    • Aggiungi un contratto (un aspetto di sistema) per comunicare formalmente la cadenza, la frequenza e la soglia di aggiornamento dei dati concordate.

    Per saperne di più, vedi Creare prodotti di dati.

  • Gestisci: aggiorna il prodotto di dati e assicurati che sia rilevabile. Questa operazione prevede le seguenti azioni:

    • Aggiorna i dettagli di base, gli asset, le autorizzazioni e gli aspetti supplementari (metadati) e la documentazione RTF.
    • Concedi ai consumatori l'accesso per scoprire e richiedere l'accesso ai prodotti di dati.

    Per saperne di più, vedi Gestire i prodotti di dati.

Percorso del consumatore del prodotto di dati

Questo percorso si concentra sulla ricerca rapida di dati attendibili e sull'ottenimento delle autorizzazioni necessarie per utilizzarli.

  • Scopri: trova dati pertinenti e attendibili per un problema aziendale specifico. Questa operazione prevede le seguenti azioni:

    • Utilizza la ricerca di Knowledge Catalog con parole chiave o linguaggio naturale per trovare il prodotto di dati confezionato.
    • Esamina la panoramica, gli asset, il contratto e altri aspetti del prodotto di dati per determinarne l'idoneità all'uso.

    Per saperne di più, vedi Cercare prodotti di dati.

  • Richiedi l'accesso: chiedi l'autorizzazione al proprietario del prodotto di dati per accedere ai dati.

    Per saperne di più, vedi Richiedere l'accesso ai prodotti di dati.

  • Utilizza: accedi agli asset sottostanti per generare approfondimenti. Questa operazione prevede la seguente azione:

    • Una volta approvato, puoi accedere al prodotto e ai relativi asset. Ad esempio, se l'asset è una tabella BigQuery, puoi andare a BigQuery Studio ed eseguire query sui dati direttamente.

    Per saperne di più, vedi Utilizzare i prodotti di dati.

Asset supportati

Un prodotto di dati può essere composto da uno o più asset di dati. In anteprima, sono supportati i seguenti asset di dati:

  • Set di dati di BigQuery
  • Tabelle BigQuery
  • Viste BigQuery

Limitazioni

  • I prodotti di dati e i relativi asset sottostanti devono risiedere nella stessa Google Cloud località.
  • Un prodotto di dati può contenere un massimo di 10 asset.
  • Puoi creare un massimo di 50 prodotti di dati per progetto per regione.
  • L'integrazione del flusso di lavoro di approvazione delle richieste non è disponibile in anteprima. Tuttavia, i consumatori dei prodotti di dati possono richiedere l'accesso attivando le notifiche via email ai proprietari dei prodotti di dati.

Passaggi successivi