Informazioni sui prodotti di dati

Questo documento descrive l'architettura e i concetti chiave dei prodotti di dati in Dataplex Universal Catalog.

Un prodotto dati è una raccolta logica e curata di asset di dati, formalmente confezionata per garantire che sia rilevabile, affidabile e accessibile. Le funzionalità chiave di un prodotto di dati includono:

  • Organizza le risorse del catalogo in un'unità logica che risolve un problema aziendale specifico e consente di ottenere informazioni più rapidamente.
  • Distribuisci con un contesto che includa una descrizione, la documentazione e gli aspetti.
  • Stabilire un rapporto di fiducia con contratti che consentono ai produttori di dati di fornire garanzie ai consumatori di dati.
  • Fornisci un flusso di lavoro self-service per consentire ai consumatori di dati di valutare i prodotti di dati e accedere ai dati.

Concetti fondamentali

Questa sezione descrive i concetti e la terminologia chiave relativi ai prodotti di dati.

Prodotto di dati

Un raggruppamento logico e curato di asset di dati, formalmente confezionati per essere rilevabili, affidabili e accessibili per risolvere problemi aziendali specifici.

Asset

Un puntatore a una risorsa di dati fisica, come un set di dati, una tabella o una vista BigQuery. Un prodotto di dati è composto da una o più risorse.

Gruppo di accesso

I gruppi Google sono configurati dai proprietari dei prodotti di dati e utilizzati dai consumer dei prodotti di dati per richiedere l'accesso. Le autorizzazioni per gli asset vengono assegnate a questi gruppi di accesso.

I gruppi di accesso semplificano la gestione delle autorizzazioni per il tuo prodotto di dati. Fungono da alias intuitivi (come Reader o Analyst) per i gruppi IAM sottostanti. In questo modo, i proprietari dei prodotti di dati possono assegnare le autorizzazioni a un livello elevato e aiutare i consumatori a richiedere il livello di accesso corretto.

Proprietario del prodotto di dati o produttore di dati

La persona o il team responsabile della creazione e della gestione dei prodotti di dati. Ciò include la gestione di qualità, accesso e documentazione.

Consumatore di prodotti di dati

La persona, il team o l'agente AI che utilizza i prodotti di dati per generare approfondimenti.

Contratto

Un accordo tra il proprietario del prodotto di dati e i suoi consumatori. Questo accordo stabilisce aspettative chiare definendo termini specifici per la modalità di fornitura e utilizzo dei dati, ad esempio la pianificazione dell'aggiornamento e gli standard di qualità.

Caso d'uso di esempio

Prendi in considerazione un data scientist che analizza un'attività di e-commerce. Il suo obiettivo è trovare il valore medio dell'ordine (AOV) per sorgente di traffico e verificare se esiste una correlazione tra l'età dell'utente e le dimensioni dell'ordine. Per farlo, devono combinare i dati di più tabelle, ad esempio order_details, user_traffic e user_demographic.

In una configurazione convenzionale, questo processo crea attrito. Per generare approfondimenti, il data scientist deve prima scoprire le tabelle corrette nel vasto panorama dei dati dell'organizzazione, quindi contattare ogni proprietario dei dati, giustificare la richiesta di accesso e attendere l'approvazione.

Con i prodotti di dati, i proprietari dei dati possono semplificare questa esperienza raggruppando gli asset pertinenti in un unico prodotto denominato "Dati aziendali e-commerce". Questo pacchetto include:

  • Asset

    • Tabelle BigQuery order_details e user_traffic (contenenti dati storici sugli ordini e sulle sorgenti di traffico)
    • Visualizzazione BigQuery user_demographics (che fornisce i dettagli utente con i dati PII esclusi)
  • Gruppi di accesso

    • Gruppi Reader e Writer predefiniti per semplificare le richieste di accesso
  • Contratto

    • Un contratto che definisce la frequenza di aggiornamento dei dati (ad esempio, settimanale alle 8:00 PST)
  • Contesto

    • Documentazione con query di esempio e altri dettagli
    • Metadati aggiuntivi per descrivere la sensibilità dei dati

I data scientist ora possono scoprire questo prodotto di dati come una singola unità logica. In questo modo, possono generare in modo sicuro approfondimenti per rispondere a domande come: "Qual è il valore medio dell'ordine per ogni origine di traffico?" e, in definitiva, rivelare quali origini generano i clienti di maggior valore.

Flusso utente del prodotto di dati

Il ciclo di vita del prodotto dati in Dataplex Universal Catalog prevede due percorsi utente chiave: uno per il proprietario (o produttore) del prodotto dati che crea e gestisce i dati e uno per il consumatore del prodotto dati che li scopre e li utilizza.

Percorso del proprietario del prodotto di dati

Questo percorso si concentra sul packaging, sulla protezione e sulla governance dei prodotti di dati per garantire che siano attendibili e accessibili.

  • Crea: definisci il prodotto di dati e includi gli asset. Ciò comporta le seguenti azioni:

    • Configura il nome univoco, il progetto, la regione e la descrizione.
    • Aggiungi asset come tabelle, set di dati o viste BigQuery.
    • Configura gruppi di accesso (ad esempio Analyst o Reader) e mappali ai gruppi Google sottostanti per semplificare la gestione delle autorizzazioni.
    • Assegna i ruoli IAM necessari a questi gruppi di accesso per gli asset specifici.
    • Aggiungi un contratto (un aspetto del sistema) per comunicare formalmente la cadenza, la frequenza e la soglia di aggiornamento dei dati concordate.

    Per saperne di più, vedi Creare prodotti di dati.

  • Gestisci: aggiorna il prodotto di dati e assicurati che sia rilevabile. Ciò comporta le seguenti azioni:

    • Aggiorna dettagli di base, asset, autorizzazioni e aspetti supplementari (metadati) e documentazione in formato RTF.
    • Concedere l'accesso ai consumatori per scoprire e richiedere l'accesso ai prodotti di dati.

    Per saperne di più, vedi Gestire i prodotti di dati.

Consumer journey del prodotto di dati

Questo percorso si concentra sulla ricerca rapida di dati attendibili e sull'ottenimento delle autorizzazioni necessarie per utilizzarli.

  • Scopri: trova dati pertinenti e attendibili per un problema aziendale specifico. Questa operazione prevede le seguenti azioni:

    • Utilizza la ricerca di Dataplex Universal Catalog con parole chiave o linguaggio naturale per trovare il prodotto di dati pacchettizzato.
    • Esamina la panoramica, gli asset, il contratto e altri aspetti del prodotto di dati per determinarne l'idoneità all'uso.

    Per maggiori informazioni, consulta la pagina Cercare prodotti di dati.

  • Richiedi l'accesso: chiedi al proprietario del prodotto dati l'autorizzazione per accedere ai dati.

    Per maggiori informazioni, consulta la pagina Richiedere l'accesso ai prodotti di dati.

  • Utilizzo: accedi agli asset sottostanti per generare approfondimenti. Ciò comporta la seguente azione:

    • Una volta approvato, puoi accedere al prodotto e ai relativi asset. Ad esempio, se l'asset è una tabella BigQuery, puoi passare a BigQuery Studio ed eseguire query sui dati direttamente.

    Per maggiori informazioni, consulta Utilizzare i prodotti di dati.

Asset supportati

Un prodotto di dati può essere composto da una o più risorse di dati. Nella versione di anteprima sono supportati i seguenti asset di dati:

  • Set di dati di BigQuery
  • Tabelle BigQuery
  • Viste BigQuery

Limitazioni

  • I prodotti di dati e le relative risorse sottostanti devono risiedere nella stessa Google Cloud posizione.
  • Un prodotto di dati può contenere un massimo di 10 asset.
  • Puoi creare un massimo di 50 prodotti di dati per progetto.
  • L'integrazione del flusso di lavoro di approvazione delle richieste non è disponibile in anteprima. Tuttavia, i consumatori di prodotti di dati possono richiedere l'accesso attivando le notifiche via email per i proprietari dei prodotti di dati.

Passaggi successivi