Dataplex Universal Catalog fornisce una piattaforma centrale per archiviare, gestire e accedere ai metadati. Questo documento descrive le funzionalità di gestione dei metadati di Dataplex Universal Catalog.
Dataplex Universal Catalog fornisce un inventario unificato delle risorse Google Cloud e on-premise. I metadati per le risorse Google Cloud vengono recuperati e archiviati automaticamente da Dataplex Universal Catalog. Puoi anche importare i tuoi metadati per risorse di terze parti in Dataplex Universal Catalog.
Puoi arricchire il tuo inventario con metadati tecnici e aziendali aggiuntivi che acquisiscono il contesto e le conoscenze sulle tue risorse. Puoi anche cercare e scoprire i tuoi dati in tutta l'organizzazione e attivare la governance dei dati sui tuoi asset di dati.
Puoi impostare l'esperienza predefinita del catalogo su Dataplex Universal Catalog. Se utilizzi Data Catalog, esegui la transizione dei contenuti e dell'utilizzo di Data Catalog autonomo a Dataplex Universal Catalog. Per saperne di più, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
Come funziona la gestione dei metadati
Le funzionalità di gestione dei metadati in Dataplex Universal Catalog si basano sui seguenti concetti:
- Voce
Una voce rappresenta un asset di dati. È simile a
Esempio: una tabella BigQuery denominata
test-project.sales_data.customer_ordersè rappresentata come una voce.Una colonna di una voce rappresenta una sezione specifica di un asset di dati, ad esempio una singola colonna in una tabella BigQuery o un campo in un file JSON. Le colonne consentono di collegare i metadati a singoli campi all'interno di una voce, non solo alla voce nel suo complesso. Non definisci direttamente le colonne, ma vengono create quando colleghi un aspetto di tipo
schemaa una voce. Le colonne sono chiamate anche percorsi.Esempio: per descrivere il campo
email_addressall'interno della vocecustomer_orderscome contenente informazioni che consentono l'identificazione personale (PII), puoi collegare un aspetto alla colonnaemail_address.Per saperne di più sulle voci, consulta Voci.
- Aspetto
Un aspetto è un insieme di campi di metadati correlati. Puoi allegare
un aspetto di una voce per descriverla nel suo complesso. La maggior parte dei metadati è descritta dagli aspetti all'interno di una voce. È simile ai tag in Data Catalog. Tuttavia, gli aspetti vengono archiviati all'interno delle voci e non come risorse autonome.
Esempio: per definire tutte le colonne della voce
customer_orders, ad esempioorder_id,order_dateeemail_address, puoi allegare un aspettoschemaalla vocecustomer_orders. Per specificare che la colonnaemail_addresscontiene un indirizzo email, puoi collegare un aspettoschemaalla colonnaemail_address.Per saperne di più sugli aspetti, consulta Aspetti.
- Tipo di voce
Un tipo di voce è un modello per la creazione di voci. Stabilisce
gli elementi di metadati essenziali, descritti come un elenco di aspetti obbligatori per le voci di questo tipo. Un tipo di voce specifica quali tipi di aspetto sono obbligatori per una risorsa dati specifica.
Esempio: per assicurarti che tutte le voci abbiano i metadati richiesti, puoi creare un tipo di voce chiamato
StandardOperationalTableche richiede l'allegato di un aspettoOwnerInfoa qualsiasi nuova voce di questo tipo.Per saperne di più sui tipi di voci, consulta Tipi di voci.
- Tipo di aspetto
Un tipo di aspetto è un template riutilizzabile per gli aspetti. Ogni aspetto
è un'istanza di un tipo di aspetto. È simile ai modelli di tag in Data Catalog.
Esempio: per definire un modello riutilizzabile per i dati di contatto, puoi definire un tipo di aspetto denominato
ContactInfocon campi perowner_name,emailesupport_team. Poi, puoi creareContactInfoaspetti da questo modello e allegarli a voci o colonne.Per saperne di più sui tipi di aspetto, consulta Tipi di aspetto.
- Gruppo di voci
Un gruppo di voci è un contenitore di voci che funge da
unità di gestione per queste voci. Ad esempio, utilizza un gruppo di voci per configurare il controllo dell'accesso di Identity and Access Management, l'attribuzione del progetto o la posizione per le voci del gruppo. Questo è simile ai gruppi di voci in Data Catalog.
Esempio: un team finanziario vuole gestire le autorizzazioni per tutte le tabelle contemporaneamente. Può creare un gruppo di voci denominato
production_finance_datae includere le voci per la tabellacustomer_orders, la tabellaquarterly_revenuee la tabellaemployee_salaries.Per saperne di più sui gruppi di voci, consulta la sezione Gruppi di voci.
Figura 1. Voci e gruppi di voci
Figura 2. Tipi di aspetti e tipi di voci
Dataplex Universal Catalog e Data Catalog
Dataplex Universal Catalog fornisce funzionalità integrate per gestire i metadati. L'archiviazione dei metadati e i metodi API sono integrati nell'API Dataplex.
Le principali funzionalità di gestione dei metadati in Dataplex Universal Catalog includono quanto segue:
Metamodello più solido
- Voci digitate. Puoi applicare standard minimi per i metadati definendo i contenuti dei metadati richiesti per le voci personalizzate
- Metamodello configurabile dall'utente per le voci personalizzate, che contribuisce a rendere l'importazione personalizzata più solida e migliora la coerenza e la completezza dei metadati personalizzati.
- Supporto di una gamma più ampia e complessa di metadati, incluso il supporto per strutture di nidificazione come elenchi, mappe e array.
Scalabilità migliorata, inclusa la possibilità di interagire con tutti i metadati associati a una voce tramite singole operazioni CRUD atomiche e la possibilità di recuperare più annotazioni di metadati associate nelle risposte di ricerca o elenco.
La seguente tabella confronta le funzionalità di gestione dei metadati di Dataplex Universal Catalog e Data Catalog:
| Funzionalità | Dataplex Universal Catalog | Data Catalog |
|---|---|---|
| Origini Google Cloud supportate | Tutte le fonti descritte nella sezione Fonti Google Cloud supportate di questo documento. | Tutte le fonti descritte in Voci e gruppi di voci. |
| Importazione di origini personalizzate | Importazione in voci personalizzate con struttura controllata, definita dai tipi di voce. Le voci e i gruppi di voci personalizzati di Data Catalog vengono resi disponibili in
Dataplex Universal Catalog con il tipo di voce | Inserimento in voci personalizzate generiche. |
| Arricchimento dei metadati | Il contesto dei metadati per le voci viene acquisito utilizzando glossari aziendali, aspetti e tipi di aspetti. | Il contesto dei metadati per le voci viene acquisito utilizzando glossari aziendali, tag e modelli di tag. |
| Cerca | La ricerca viene eseguita su quanto segue:
I risultati di ricerca includono solo le risorse che appartengono alla stessa organizzazione e allo stesso perimetro VPC-SC del progetto in cui viene eseguita la ricerca. Quando utilizzi la console Google Cloud , questo è il progetto selezionato nella console. Tieni presente che, per cercare le voci, devi disporre di almeno uno dei seguenti ruoli IAM nel progetto utilizzato per la ricerca: Amministratore Dataplex Catalog, Editor Dataplex Catalog o Visualizzatore Dataplex Catalog. Le autorizzazioni sui risultati di ricerca vengono controllate indipendentemente dal progetto selezionato. |
La ricerca viene eseguita su quanto segue:
|
| Derivazione dei dati |
La derivazione dei dati recupera i dettagli delle voci per i nodi degli asset utilizzando l'API Dataplex. La console Google Cloud mostra gli aspetti allegati. |
La derivazione dei dati recupera i dettagli delle voci per i nodi delle risorse utilizzando l'API Data Catalog. |
| Glossari aziendali |
Il glossario aziendale ti consente di creare una tassonomia per i termini aziendali e associarli ad asset e colonne di dati. Puoi utilizzare la ricerca per scoprire gli asset collegati a un termine. |
Il glossario aziendale ti consente di creare una tassonomia per i termini aziendali e associarli alle colonne. Puoi utilizzare la ricerca per scoprire gli asset collegati a un termine. |
La seguente tabella descrive la corrispondenza tra le risorse in Dataplex Universal Catalog e le risorse Data Catalog:
| Risorsa Dataplex Universal Catalog | Risorsa Data Catalog | Descrizione |
|---|---|---|
Tipo di aspetto (global) |
Modello di tag pubblico | I modelli di tag sono risorse a livello di regione. Tuttavia, puoi utilizzarli per creare
tag in più regioni. I modelli di tag corrispondono ai tipi di aspetto global in Dataplex Universal Catalog. |
| Aspetto facoltativo | Tag pubblico | I tag pubblici in Data Catalog corrispondono agli aspetti facoltativi in Dataplex Universal Catalog. |
| Gruppo di voci | Gruppo di voci | Per le origini Google Cloud , i gruppi di voci di sistema come @bigquery
vengono stabiliti per progetto in Dataplex Universal Catalog. |
| Aspetti obbligatori per la voce personalizzata | Voce personalizzata | Data Catalog e Dataplex Universal Catalog condividono concetti simili per le voci personalizzate. Le proprietà delle voci standard sono modellate come aspetti obbligatori in Dataplex Universal Catalog. |
| Aspetti obbligatori per l'inserimento nel sistema | Voce Sistema (Google Cloud) | I metadati che descrivono le entità integrate, ad esempio Schema per le tabelle BigQuery, vengono acquisiti negli aspetti obbligatori dei tipi di aspetti definiti dal sistema. |
| Glossari aziendali | Glossari aziendali | Utilizza i glossari per creare una tassonomia dei termini aziendali standardizzando il contesto aziendale in tutta l'impresa. |
Per saperne di più sulle funzionalità disponibili in Data Catalog, ma non supportate in Dataplex Universal Catalog, consulta la sezione Funzionalità di gestione dei metadati non supportate in Dataplex Universal Catalog di questo documento.
Per gli utenti esistenti di Data Catalog
Se utilizzi già Data Catalog, tieni presente quanto segue:
- Le voci personalizzate, il contesto della panoramica, i glossari e i gruppi di voci che hai creato in Data Catalog vengono resi disponibili in Dataplex Universal Catalog.
- In qualità di amministratore, puoi scegliere di rendere disponibili contemporaneamente i contenuti dei tag e dei modelli di tag di Data Catalog in Dataplex Universal Catalog. Per saperne di più, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
- Quando cerchi asset di dati in Dataplex Universal Catalog, vengono inclusi sia i metadati creati direttamente in Dataplex Universal Catalog sia i metadati importati da Data Catalog in Dataplex Universal Catalog.
- Quando cerchi asset di dati in Data Catalog, vengono inclusi solo i metadati che sono stati creati in Data Catalog.
- Le descrizioni dei gruppi di voci in Data Catalog che superano i 1024 caratteri vengono troncate a 1024 caratteri in Dataplex Universal Catalog.
- In qualità di amministratore, per rendere disponibili in Dataplex Universal Catalog i glossari e i relativi collegamenti tra i termini aziendali e le colonne che hai creato in Data Catalog, segui la procedura di transizione.
Per saperne di più su come eseguire la transizione dei contenuti e dell'utilizzo di Data Catalog autonomo a Dataplex Universal Catalog, consulta Transizione da Data Catalog a Dataplex Universal Catalog.
Mappa i metodi dell'API Data Catalog a Dataplex Universal Catalog
Se esegui la migrazione da Data Catalog a Dataplex Universal Catalog, devi aggiornare i flussi di lavoro programmatici per utilizzare l'API Dataplex. Questa sezione fornisce un mapping tra l'API Data Catalog e l'API Dataplex.
Per saperne di più sui metodi API Dataplex Universal Catalog, consulta la documentazione dell'API Dataplex per i metodi REST e la documentazione dell'API Dataplex per i metodi RPC.
Le tabelle seguenti forniscono un mapping dei metodi dell'API Data Catalog ai loro equivalenti nell'API Dataplex.
Gruppi di voci
Il concetto di gruppi di voci è lo stesso sia in Dataplex Universal Catalog sia in Data Catalog.
| Metodo API Data Catalog | Metodo API Dataplex |
|---|---|
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.create (REST)CreateEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.get (REST)GetEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.patch (REST)UpdateEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.delete (REST)DeleteEntryGroup (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
projects.locations.entryGroups.list (REST)ListEntryGroups (RPC) |
Voci
Il concetto di voci, che rappresentano gli asset di dati, è simile sia in Dataplex Universal Catalog che in Data Catalog.
| Metodo API Data Catalog | Metodo API Dataplex |
|---|---|
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.create (REST)CreateEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.delete (REST)DeleteEntry (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
projects.locations.entryGroups.entries.list (REST)ListEntries (RPC) |
entries.lookup (REST)LookupEntry (RPC) |
projects.locations.entries.lookup (REST)LookupEntry (RPC)
Nota:per utilizzare i metodi |
entries.modifyEntryContacts (REST)ModifyEntryContacts (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota:quando esegui la migrazione dal metodo |
entries.modifyEntryOverview (REST)ModifyEntryOverview (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota:quando esegui la migrazione dal metodo |
projects.locations.entryGroups.entries.reconcileTags (REST)ReconcileTags (RPC) |
projects.locations.metadataJobs.create (REST)CreateMetadataJob (RPC),projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC)
Nota:quando esegui la migrazione dal metodo |
catalog.search (REST)SearchCatalog (RPC) |
projects.locations.searchEntries (REST)SearchEntries (RPC)
Nota:i metodi |
Modelli di tag e tag
In Dataplex Universal Catalog, i tipi di aspetto sono i successori dei modelli di tag di Data Catalog e gli aspetti sono i successori dei tag di Data Catalog.
| Metodo API Data Catalog | Metodo API Dataplex |
|---|---|
projects.locations.tagTemplates.create (REST)CreateTagTemplate (RPC) |
projects.locations.aspectTypes.create (REST)CreateAspectType (RPC) |
projects.locations.tagTemplates.get (REST)GetTagTemplate (RPC) |
projects.locations.aspectTypes.get (REST)GetAspectType (RPC) |
projects.locations.tagTemplates.patch (REST)UpdateTagTemplate (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.delete (REST)DeleteTagTemplate (RPC) |
projects.locations.aspectTypes.delete (REST)DeleteAspectType (RPC) |
catalog.search (REST) con predicato type=tag_templateSearchCatalog (RPC) con predicato type=tag_template |
projects.locations.aspectTypes.list (REST)ListAspectTypes (RPC) |
Campi del modello di tag
I campi del modello di tag corrispondono ai contenuti del campo metadata_template
in un tipo di aspetto. Per eseguire la migrazione di un'operazione a livello di campo di Data Catalog, utilizza
l'operazione UpdateAspectType con il payload corrispondente in
Dataplex Universal Catalog.
| Metodo API Data Catalog | Metodo API Dataplex |
|---|---|
projects.locations.tagTemplates.fields.create (REST)CreateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.patch (REST)UpdateTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.rename (REST)RenameTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
projects.locations.tagTemplates.fields.delete (REST)DeleteTagTemplateField (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Valori enum del campo modello di tag
Analogamente ai campi dei modelli di tag, puoi modificare i valori enum nell'API Dataplex modificando il campo metadata_template nel tipo di aspetto corrispondente.
| Metodo API Data Catalog | Metodo API Dataplex |
|---|---|
projects.locations.tagTemplates.fields.enumValues.rename (REST)RenameTagTemplateFieldEnumValue (RPC) |
projects.locations.aspectTypes.patch (REST)UpdateAspectType (RPC) |
Tag
Gli aspetti sono i successori dei tag Data Catalog. Gli aspetti non sono
risorse autonome e sono incapsulati nelle voci principali. Il parametro
field_mask può essere utilizzato per aggiornare selettivamente un singolo aspetto di una
voce.
| Metodo API Data Catalog | Metodo API Dataplex |
|---|---|
projects.locations.entryGroups.entries.tags.create (REST)CreateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.list (REST)ListTags (RPC) |
projects.locations.entryGroups.entries.get (REST)GetEntry (RPC)
Nota:per limitare la risposta ai soli aspetti richiesti, utilizza i parametri |
projects.locations.entryGroups.entries.tags.patch (REST)UpdateTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
projects.locations.entryGroups.entries.tags.delete (REST)DeleteTag (RPC) |
projects.locations.entryGroups.entries.patch (REST)UpdateEntry (RPC) |
Tag e tassonomie dei criteri
Queste API non cambiano e pertanto non è necessaria la migrazione.
Origini supportate
- Rilevamento automatico dei dati di Cloud Storage
- I metadati delle seguenti origini Google Cloud vengono inseriti automaticamente
nel Catalogo universale Dataplex:
- Cluster, istanze, database, schemi, tabelle e viste AlloyDB per PostgreSQL. Consulta Attivare l'integrazione di AlloyDB per PostgreSQL (anteprima)
- Scambi e schede BigQuery sharing (in precedenza Analytics Hub)
- Set di dati, tabelle, modelli, routine, connessioni e set di dati collegati BigQuery
- Istanze, cluster e tabelle Bigtable (inclusi i dettagli delle famiglie di colonne)
- Repository Dataform e asset di codice
- Istanze, database, schemi, tabelle e viste Cloud SQL. Consulta Attivazione dell'integrazione di Cloud SQL
- Servizi, database e tabelle Dataproc Metastore
- Argomenti Pub/Sub
- Istanze, database, tabelle e viste Spanner
- Modelli, set di dati, gruppi di funzionalità, visualizzazioni delle funzionalità e istanze dello store online di Vertex AI
Per importare i metadati da un'origine di terze parti in Dataplex Universal Catalog, puoi utilizzare una pipeline di connettività gestita.
Vincoli di progetto e località
Le risorse del catalogo in Dataplex Universal Catalog sono ospitate in vari progetti e località. Si applicano le seguenti limitazioni:
Località:
- La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere
global. - Un aspetto aggiunto a una voce deve basarsi su un tipo di aspetto
memorizzato nella stessa posizione della voce oppure il tipo di aspetto deve essere
global. - Un tipo di voce deve essere composto da tipi di aspetto archiviati nella stessa posizione del tipo di voce.
- La posizione di una voce deve corrispondere a quella del tipo di voce oppure il tipo di voce deve essere
Progetto:
- Se un tipo di voce fa riferimento a tipi di aspetto personalizzato, questi devono trovarsi nella stessa posizione e nello stesso progetto del tipo di voce.
Funzionalità di gestione dei metadati non supportate in Dataplex Universal Catalog
Le seguenti funzionalità disponibili in Data Catalog non sono supportate in Dataplex Universal Catalog:
- Il concetto di aspetti privati e tipi di aspetto privati (controparti dei tag privati e dei modelli di tag privati in Data Catalog) non esiste in Dataplex Universal Catalog.
- La ricerca di tag di criteri non è supportata nella ricerca di Dataplex Universal Catalog;
di conseguenza, i predicati
policytagepolicytagidnon funzionano nella ricerca di Dataplex Universal Catalog. - Quando importi in Dataplex Universal Catalog i gruppi di voci personalizzati, le voci personalizzate, i modelli di tag e i tag di Data Catalog, le autorizzazioni originali non vengono trasferite. Prima di utilizzare i metadati copiati, devi configurare esplicitamente le autorizzazioni IAM.
- L'invio dei risultati dell'ispezione di Sensitive Data Protection direttamente al catalogo in Dataplex Universal Catalog non è supportato. In alternativa, puoi inviare i risultati dell'ispezione di Sensitive Data Protection a Data Catalog, e poi trasferire i risultati a Dataplex Universal Catalog.
- Non puoi elencare i tipi di voce e i tipi di aspetto tra i progetti utilizzando l'API. Puoi limitare la richiesta di elenco a un solo progetto.
- La registrazione di lake, zone, asset ed entità come voci di Dataplex Universal Catalog non è supportata. Ciò significa che i metadati di Data Catalog allegati a lake, zone, asset ed entità non vengono trasferiti al catalogo in Dataplex Universal Catalog. Inoltre, quando utilizzi la ricerca di Dataplex Universal Catalog, la ricerca di zone ed entità non è supportata e il filtro per lake e zone non è supportato. Puoi utilizzare i lake e le zone indipendentemente dal catalogo in Dataplex Universal Catalog.
- La ricerca dell'amministratore, che garantisce il recupero completo, non è supportata. In alternativa, puoi esportare i metadati in Cloud Storage e poi eseguire query da BigQuery.
Per un confronto delle funzionalità e delle risorse supportate sia in Dataplex Universal Catalog che in Data Catalog, consulta la sezione Dataplex Universal Catalog e Data Catalog di questo documento.
Prezzi
Il Catalogo universale Dataplex utilizza lo SKU di archiviazione dei metadati per addebitare l'archiviazione dei metadati. Per saperne di più, consulta i prezzi di Dataplex Universal Catalog.
Non sono previsti costi per l'utilizzo di quanto segue:
- Creazione e gestione delle risorse del catalogo in Dataplex Universal Catalog
- Chiamate API di ricerca per Dataplex Universal Catalog
- Query di ricerca eseguite nella pagina Dataplex Universal Catalog nella consoleGoogle Cloud
Passaggi successivi
- Scopri come cercare risorse in Dataplex Universal Catalog.
- Scopri come gestire gli asset e arricchire i metadati.
- Scopri come gestire le voci e importare fonti personalizzate.
- Scopri di più sulla transizione da Data Catalog a Dataplex Universal Catalog.
- Scopri di più sulla transizione dei glossari a Dataplex Universal Catalog.