Questo documento descrive l'architettura e i concetti chiave dei prodotti di dati in Dataplex Universal Catalog.
Un prodotto dati è una raccolta logica e curata di asset di dati, formalmente confezionata per garantire che sia rilevabile, affidabile e accessibile. Le funzionalità chiave di un prodotto di dati includono:
- Organizza le risorse del catalogo in un'unità logica che risolve un problema aziendale specifico e consente di ottenere informazioni più rapidamente.
- Distribuisci con un contesto che includa una descrizione, la documentazione e gli aspetti.
- Stabilire un rapporto di fiducia con contratti che consentono ai produttori di dati di fornire garanzie ai consumatori di dati.
- Fornisci un flusso di lavoro self-service per consentire ai consumatori di dati di valutare i prodotti di dati e accedere ai dati.
Concetti fondamentali
Questa sezione descrive i concetti e la terminologia chiave relativi ai prodotti di dati.
Prodotto di dati
Un raggruppamento logico e curato di asset di dati, formalmente confezionati per essere rilevabili, affidabili e accessibili per risolvere problemi aziendali specifici.
Asset
Un puntatore a una risorsa di dati fisica, come un set di dati, una tabella o una vista BigQuery. Un prodotto di dati è composto da una o più risorse.
Gruppo di accesso
I gruppi Google sono configurati dai proprietari dei prodotti di dati e utilizzati dai consumer dei prodotti di dati per richiedere l'accesso. Le autorizzazioni per gli asset vengono assegnate a questi gruppi di accesso.
I gruppi di accesso semplificano la gestione delle autorizzazioni per il tuo prodotto di dati. Fungono da alias intuitivi (come Reader o Analyst) per i gruppi IAM sottostanti. In questo modo, i proprietari dei prodotti di dati possono assegnare
le autorizzazioni a un livello elevato e aiutare i consumatori a richiedere il livello
di accesso corretto.
Proprietario del prodotto di dati o produttore di dati
La persona o il team responsabile della creazione e della gestione dei prodotti di dati. Ciò include la gestione di qualità, accesso e documentazione.
Consumatore di prodotti di dati
La persona, il team o l'agente AI che utilizza i prodotti di dati per generare approfondimenti.
Contratto
Un accordo tra il proprietario del prodotto di dati e i suoi consumatori. Questo accordo stabilisce aspettative chiare definendo termini specifici per la modalità di fornitura e utilizzo dei dati, ad esempio la pianificazione dell'aggiornamento e gli standard di qualità.
Caso d'uso di esempio
Prendi in considerazione un data scientist che analizza un'attività di e-commerce. Il suo obiettivo è
trovare il valore medio dell'ordine (AOV) per sorgente di traffico e verificare se esiste una
correlazione tra l'età dell'utente e le dimensioni dell'ordine. Per farlo, devono combinare
i dati di più tabelle, ad esempio order_details, user_traffic e
user_demographic.
In una configurazione convenzionale, questo processo crea attrito. Per generare approfondimenti, il data scientist deve prima scoprire le tabelle corrette nel vasto panorama dei dati dell'organizzazione, quindi contattare ogni proprietario dei dati, giustificare la richiesta di accesso e attendere l'approvazione.
Con i prodotti di dati, i proprietari dei dati possono semplificare questa esperienza raggruppando gli asset pertinenti in un unico prodotto denominato "Dati aziendali e-commerce". Questo pacchetto include:
Asset
- Tabelle BigQuery
order_detailseuser_traffic(contenenti dati storici sugli ordini e sulle sorgenti di traffico) - Visualizzazione BigQuery
user_demographics(che fornisce i dettagli utente con i dati PII esclusi)
- Tabelle BigQuery
Gruppi di accesso
- Gruppi
ReadereWriterpredefiniti per semplificare le richieste di accesso
- Gruppi
Contratto
- Un contratto che definisce la frequenza di aggiornamento dei dati (ad esempio, settimanale alle 8:00 PST)
Contesto
- Documentazione con query di esempio e altri dettagli
- Metadati aggiuntivi per descrivere la sensibilità dei dati
I data scientist ora possono scoprire questo prodotto di dati come una singola unità logica. In questo modo, possono generare in modo sicuro approfondimenti per rispondere a domande come: "Qual è il valore medio dell'ordine per ogni origine di traffico?" e, in definitiva, rivelare quali origini generano i clienti di maggior valore.
Flusso utente del prodotto di dati
Il ciclo di vita del prodotto dati in Dataplex Universal Catalog prevede due percorsi utente chiave: uno per il proprietario (o produttore) del prodotto dati che crea e gestisce i dati e uno per il consumatore del prodotto dati che li scopre e li utilizza.
Percorso del proprietario del prodotto di dati
Questo percorso si concentra sul packaging, sulla protezione e sulla governance dei prodotti di dati per garantire che siano attendibili e accessibili.
Crea: definisci il prodotto di dati e includi gli asset. Ciò comporta le seguenti azioni:
- Configura il nome univoco, il progetto, la regione e la descrizione.
- Aggiungi asset come tabelle, set di dati o viste BigQuery.
- Configura gruppi di accesso (ad esempio
AnalystoReader) e mappali ai gruppi Google sottostanti per semplificare la gestione delle autorizzazioni. - Assegna i ruoli IAM necessari a questi gruppi di accesso per gli asset specifici.
- Aggiungi un contratto (un aspetto del sistema) per comunicare formalmente la cadenza, la frequenza e la soglia di aggiornamento dei dati concordate.
Per saperne di più, vedi Creare prodotti di dati.
Gestisci: aggiorna il prodotto di dati e assicurati che sia rilevabile. Ciò comporta le seguenti azioni:
- Aggiorna dettagli di base, asset, autorizzazioni e aspetti supplementari (metadati) e documentazione in formato RTF.
- Concedere l'accesso ai consumatori per scoprire e richiedere l'accesso ai prodotti di dati.
Per saperne di più, vedi Gestire i prodotti di dati.
Consumer journey del prodotto di dati
Questo percorso si concentra sulla ricerca rapida di dati attendibili e sull'ottenimento delle autorizzazioni necessarie per utilizzarli.
Scopri: trova dati pertinenti e attendibili per un problema aziendale specifico. Questa operazione prevede le seguenti azioni:
- Utilizza la ricerca di Dataplex Universal Catalog con parole chiave o linguaggio naturale per trovare il prodotto di dati pacchettizzato.
- Esamina la panoramica, gli asset, il contratto e altri aspetti del prodotto di dati per determinarne l'idoneità all'uso.
Per maggiori informazioni, consulta la pagina Cercare prodotti di dati.
Richiedi l'accesso: chiedi al proprietario del prodotto dati l'autorizzazione per accedere ai dati.
Per maggiori informazioni, consulta la pagina Richiedere l'accesso ai prodotti di dati.
Utilizzo: accedi agli asset sottostanti per generare approfondimenti. Ciò comporta la seguente azione:
- Una volta approvato, puoi accedere al prodotto e ai relativi asset. Ad esempio, se l'asset è una tabella BigQuery, puoi passare a BigQuery Studio ed eseguire query sui dati direttamente.
Per maggiori informazioni, consulta Utilizzare i prodotti di dati.
Asset supportati
Un prodotto di dati può essere composto da una o più risorse di dati. Nella versione di anteprima sono supportati i seguenti asset di dati:
- Set di dati di BigQuery
- Tabelle BigQuery
- Viste BigQuery
Limitazioni
- I prodotti di dati e le relative risorse sottostanti devono risiedere nella stessa Google Cloud posizione.
- Un prodotto di dati può contenere un massimo di 10 asset.
- Puoi creare un massimo di 50 prodotti di dati per progetto.
- L'integrazione del flusso di lavoro di approvazione delle richieste non è disponibile in anteprima. Tuttavia, i consumatori di prodotti di dati possono richiedere l'accesso attivando le notifiche via email per i proprietari dei prodotti di dati.
Passaggi successivi
- Scopri come creare un prodotto di dati.
- Scopri di più sulla gestione dei prodotti di dati.
- Scopri come cercare i prodotti di dati.
- Scopri come richiedere l'accesso ai prodotti di dati.