Questo documento è destinato ai proprietari di prodotti di dati che vogliono creare e configurare i prodotti di dati in Knowledge Catalog (in precedenza Dataplex Universal Catalog).
Per saperne di più sull'architettura e sui concetti chiave dei prodotti di dati, consulta Informazioni sui prodotti di dati.
Prima di iniziare
Prima di creare prodotti di dati, completa i seguenti prerequisiti.
Abilita Gemini
La configurazione di Gemini nell'asset di dati è un passaggio facoltativo, ma altamente consigliato prima di creare il primo prodotto di dati.
Per impostazione predefinita, la creazione di un prodotto di dati richiede l'inserimento manuale di descrizioni aziendali, definizioni tecniche e documentazione di onboarding per gli asset. Quando attivi l'integrazione di Gemini, Knowledge Catalog sfrutta l'assistenza dell'AI per analizzare automaticamente gli schemi e i risultati della scansione dei dati per generare quanto segue:
- Documentazione aziendale:genera modelli di documentazione e descrizioni chiare per il tuo prodotto di dati e le sue singole risorse di dati.
- Approfondimenti e query di esempio:crea query di esempio pronte all'uso in base al layout dello schema dell'asset, consentendo ai consumatori di dati di iniziare immediatamente a eseguire query sul prodotto dopo l'approvazione.
Se scegli di non attivare Gemini, puoi saltare questa sezione. Tuttavia, devi fornire manualmente tutti i metadati delle risorse e i modelli di query durante la creazione.
Per saperne di più sull'attivazione di Gemini in BigQuery, consulta Configurare Gemini in BigQuery.
Abilita API
Abilita le API Dataplex e BigQuery.
Ruoli richiesti per abilitare le API
Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo dei servizi (roles/serviceusage.serviceUsageAdmin), che include l'autorizzazione serviceusage.services.enable. Scopri come concedere
i ruoli.
Creare asset di dati
Assicurati che gli asset di dati (ad esempio, set di dati, tabelle e viste BigQuery) siano creati e compilati.
Per saperne di più sulla creazione di asset di dati, consulta i seguenti documenti:
- Crea set di dati BigQuery
- Creare e utilizzare le tabelle BigQuery
- Creare viste logiche in BigQuery
- Crea viste materializzate in BigQuery
Configura le identità
Identifica o crea i service account o i gruppi Google che vuoi configurare nel tuo prodotto di dati.
Ruoli obbligatori
Questa sezione descrive i ruoli IAM minimi richiesti per le seguenti sezioni principali:
Proprietari dei prodotti di dati: utenti che creano, configurano e gestiscono i prodotti di dati e i relativi asset
Consumatori di prodotti di dati: utenti che cercano, visualizzano e richiedono l'accesso a prodotti di dati pubblicati
Ruoli obbligatori per i proprietari dei prodotti di dati
Per ottenere le autorizzazioni necessarie per creare e gestire i prodotti di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:
-
Autorizzazioni complete per creare, aggiornare, eliminare, gestire le autorizzazioni e approvare o rifiutare le richieste di accesso per i prodotti di dati:
Dataplex Data Products Admin (
roles/dataplex.dataProductsAdmin) -
Aggiorna e gestisci le autorizzazioni e approva o rifiuta le richieste di accesso per i prodotti di dati:
Editor di Dataplex Data Products (
roles/dataplex.dataProductsEditor) -
Aggiungi aspetti dei metadati (come
schema,overview,contactsequeries): Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) -
Cerca e aggiungi asset:
Visualizzatore Dataplex Catalog (
roles/dataplex.catalogViewer) -
Modifica i tipi di aspetti di sistema (come
overview,contact,contractequeries): Editor di Dataplex Catalog (roles/dataplex.catalogEditor) -
Crea o recupera scansioni di dati di approfondimenti per la documentazione automatizzata e la generazione di approfondimenti:
Dataplex DataScan Admin (
roles/dataplex.dataScanAdmin)
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare e gestire i prodotti di dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per creare e gestire i prodotti di dati sono necessarie le seguenti autorizzazioni:
-
Crea un prodotto di dati:
dataplex.dataProducts.create -
Elenca i prodotti di dati in un progetto:
dataplex.dataProducts.list -
Ottenere o visualizzare un prodotto di dati:
dataplex.dataProducts.get -
Modifica un prodotto di dati esistente:
dataplex.dataProducts.update -
Elimina il prodotto di dati:
dataplex.dataProducts.delete -
Approva la richiesta di accesso al prodotto di dati:
dataplex.dataProducts.approve -
Cerca un prodotto di dati utilizzando Knowledge Catalog:
-
dataplex.dataProducts.get -
dataplex.projects.search
-
-
Crea richiesta di accesso al prodotto di dati:
dataplex.dataProducts.get -
Crea un asset di dati:
dataplex.dataAssets.create -
Elenca gli asset di dati all'interno di un prodotto di dati:
dataplex.dataAssets.list -
Recupera asset di dati:
dataplex.dataAssets.get -
Modifica un asset di dati esistente:
dataplex.dataAssets.update -
Elimina asset di dati:
dataplex.dataAssets.delete -
Crea una scansione dei dati:
dataplex.datascans.create -
Elenca tutte le scansioni dei dati:
dataplex.datascans.list -
Esegui una scansione dei dati:
dataplex.datascans.get -
Esegui una scansione dei dati:
dataplex.datascans.run -
Modifica il tipo di aspetto di sistema
overview:dataplex.entryGroups.useOverviewAspect -
Modifica il tipo di aspetto di sistema
refresh cadence:dataplex.entryGroups.useRefreshCadenceAspect -
Modifica il tipo di aspetto di sistema
queries:dataplex.entryGroups.useQueriesAspect
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Ruoli richiesti per i consumatori di prodotti di dati
Affinché i consumatori di prodotti di dati possano cercare, visualizzare e richiedere l'accesso ai prodotti di dati, in qualità di proprietario di un prodotto di dati, devi assicurarti che sia rilevabile. Per farlo, concedi ai consumatori del prodotto di dati i seguenti ruoli IAM sul prodotto di dati:
- Cerca i prodotti di dati e richiedi l'accesso:
Dataplex Data Product Consumer (
dataplex.dataProductsConsumer) e Dataplex Catalog Viewer (roles/dataplex.catalogViewer) - Accesso di sola lettura per visualizzare le definizioni e i metadati dei prodotti di dati:
Dataplex Data Product Viewer (
dataplex.dataProductsViewer)
Creare e configurare un prodotto di dati
La creazione di un prodotto di dati comporta le seguenti attività di alto livello:
Creare un prodotto di dati
Questo passaggio iniziale obbligatorio richiede la definizione di dettagli di base come un nome univoco del prodotto di dati, la descrizione, la regione in cui viene creato il prodotto di dati e i dettagli di contatto.
(Facoltativo) Aggiungere asset
In questa fase, seleziona gli asset da includere nel prodotto di dati. Un vincolo fondamentale è che gli asset devono risiedere nella stessa regione del prodotto di dati. Puoi aggiungere fino a 10 asset alla volta, con un massimo totale di 50 asset consentiti per prodotto di dati.
Per l'elenco degli asset supportati, consulta la sezione Asset supportati.
(Facoltativo) Configura i gruppi di accesso e le autorizzazioni per gli asset
In questa fase facoltativa, semplifichi controllo dell'accesso creando gruppi di accesso. Questi gruppi di accesso fungono da alias intuitivi (ad esempio,
AnalystoReader) per i service account e i gruppi Google sottostanti. Assegni quindi le autorizzazioni selezionando un ruolo IAM specifico e mappandolo a un gruppo di accesso per un asset specifico.(Facoltativo) Aggiungi dettagli del contratto e dell'aspetto
In questa fase, migliora la governance e la rilevabilità dei dati allegando framework di metadati. Puoi aggiungere un contratto per comunicare formalmente la cadenza di aggiornamento dei dati, specificando parametri come frequenza, tempistiche e soglie di varianza dell'aggiornamento. Puoi anche allegare aspetti personalizzati per fornire metadati aziendali o tecnici aggiuntivi per il tuo prodotto di dati.
(Facoltativo) Aggiungere ulteriori dettagli
In questa fase finale, aggiungi documentazione in formato RTF, come guide all'onboarding degli utenti, definizioni aziendali e query di esempio, per aiutare i consumatori a interagire con il prodotto di dati immediatamente dopo l'approvazione.
Per creare e configurare un prodotto di dati, completa i passaggi nelle seguenti sezioni:
Creare un prodotto di dati
Console
Nella console Google Cloud , vai alla pagina Prodotti di dati di Knowledge Catalog.
Fai clic su Crea.
Nel riquadro Crea prodotti di dati, inserisci i seguenti dettagli:
- Nome prodotto di dati: inserisci un nome univoco per il prodotto di dati.
- ID prodotto di dati: un identificatore univoco generato automaticamente. Questo campo è modificabile.
- ID progetto: un identificatore univoco del progetto in cui viene creato il prodotto dati. Sfoglia e seleziona il progetto.
- Regione: seleziona la regione o la multi-regione in cui viene creato il prodotto di dati.
- Icona del prodotto di dati: sfoglia e seleziona un'icona per identificare visivamente il prodotto di dati. Questa opzione è facoltativa.
- Descrizione: inserisci una breve descrizione del prodotto di dati.
Contatti: fornisci i dati di contatto per i flussi di lavoro di governance e approvazione:
- Indirizzo email dei proprietari del prodotto di dati: inserisci l'indirizzo email dei proprietari del prodotto di dati.
- Indirizzo email degli approvatori del prodotto di dati:inserisci l'indirizzo email degli approvatori designati responsabili dell'approvazione delle richieste di accesso o delle modifiche.
Etichette: aggiungi coppie chiave-valore per organizzare le risorse. Questa opzione è facoltativa.
Fai clic su Crea prodotto di dati.
REST
Per creare un prodotto di dati, utilizza il
metodo
dataProducts.create.
Ad esempio, invia la seguente richiesta POST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"display_name": "DISPLAY_NAME", "owner_emails": ["EMAIL_IDs"], "access_approval_config": { "approver_emails": ["APPROVER_EMAIL_IDs"]} }' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts?data_product_id=DATA_PRODUCT_ID
Sostituisci quanto segue:
- DISPLAY_NAME: un nome intuitivo per il tuo prodotto di dati
- EMAIL_IDs: indirizzi email separati da virgole dei proprietari del prodotto di dati
- APPROVER_EMAIL_IDs: indirizzi email separati da virgole dei responsabili dell'approvazione designati che si occupano di approvare le richieste o le modifiche di accesso.
- PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui vuoi creare il prodotto di dati
- DATA_PRODUCT_ID: un ID univoco per il tuo prodotto di dati
Terraform
Per creare un prodotto di dati, utilizza la risorsa
google_dataplex_data_product.
resource "google_dataplex_data_product" "example_product" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
display_name = "DISPLAY_NAME"
description = "DESCRIPTION"
owner_emails = ["EMAIL_IDs"]
provider = google-beta
}
Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui vuoi creare il prodotto di dati
- DATA_PRODUCT_ID: un ID univoco per il tuo prodotto di dati
- DISPLAY_NAME: un nome intuitivo per il prodotto di dati
- DESCRIPTION: una breve descrizione del prodotto dati
- EMAIL_IDs: indirizzi email separati da virgole dei
proprietari del prodotto di dati, ad
esempio
["user1@example.com", "user2@example.com"]
(Facoltativo) Aggiungi asset
Puoi aggiungere vari asset di dati, come tabelle, viste, set di dati e modelli BigQuery, al tuo prodotto di dati. Per l'elenco degli asset supportati, consulta Asset supportati.
Console
Nel riquadro Aggiungi asset, fai clic su +Aggiungi.
Cerca e seleziona gli asset che vuoi aggiungere al tuo prodotto di dati. Gli asset selezionati devono risiedere nella stessa regione del prodotto di dati.
Se disponi delle autorizzazioni necessarie, puoi visualizzare i metadati degli asset facendo clic sull'asset.
Per perfezionare i risultati di ricerca, utilizza i filtri.
Dopo aver selezionato gli asset, fai clic su Aggiungi.
Fai clic su Continua.
REST
Per aggiungere un asset di dati al prodotto di dati, utilizza il metodo
dataAssets.create.
Ad esempio, invia la seguente richiesta POST:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"resource": "RESOURCE_NAME"}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets?data_asset_id=DATA_ASSET_ID
Sostituisci quanto segue:
- RESOURCE_NAME: il nome completo della risorsa dell'asset di dati (ad esempio,
//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID) - PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui esiste il prodotto di dati
- DATA_PRODUCT_ID: l'ID del prodotto di dati
- DATA_ASSET_ID: un ID univoco per questo asset di dati all'interno del prodotto di dati
Terraform
Per aggiungere un asset di dati al prodotto di dati, utilizza la risorsa
google_dataplex_data_product_data_asset.
resource "google_dataplex_data_product_data_asset" "example_asset" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
data_asset_id = "DATA_ASSET_ID"
resource = "RESOURCE_NAME"
provider = google-beta
}
Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui esiste il prodotto di dati
- DATA_PRODUCT_ID: l'ID del prodotto di dati
- DATA_ASSET_ID: un ID univoco per questo asset di dati all'interno del prodotto di dati
- RESOURCE_NAME: il nome completo della risorsa dell'asset di dati (ad esempio,
//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID)
(Facoltativo) Configura i gruppi di accesso e le autorizzazioni per gli asset
Nel riquadro Configura gruppi di accesso e autorizzazioni per gli asset, puoi creare gruppi di accesso e assegnare autorizzazioni agli asset.
Configura gruppi di accesso
Console
Fai clic su Aggiungi gruppo di accesso.
Nel campo Nome gruppo di accesso, inserisci un nome per il gruppo di accesso. Ad esempio,
Analyst.Nel campo Descrizione gruppo di accesso, inserisci una descrizione per il gruppo di accesso.
Nel campo Identificatore gruppo di accesso, inserisci l'indirizzo email di un gruppo Google che vuoi assegnare a questo gruppo di accesso.
I consumer del prodotto di dati che richiedono l'accesso per se stessi vengono aggiunti come membri al gruppo Google mappato.
Per saperne di più sulla creazione di Gruppi Google, consulta l'articolo Creare e gestire Gruppi Google nella console Google Cloud .
Nel campo Service account del gruppo di accesso, inserisci l'indirizzo email di un account di servizio che vuoi assegnare a questo gruppo di accesso.
Ai consumatori di prodotti di dati che richiedono l'accesso per i propri service account viene concesso il ruolo IAM Creatore token service account (
roles/iam.serviceAccountTokenCreator) per rappresentare il account di servizio del produttore di dati mappato al gruppo di accesso.Per ulteriori informazioni sulla creazione dei service account, consulta Creare service account.
Fai clic su Fine.
Per aggiungere un altro gruppo di accesso, fai clic su Aggiungi gruppo di accesso e ripeti i passaggi.
Puoi aggiungere un massimo di tre gruppi di accesso per prodotto di dati.
Fai clic su Salva.
REST
Per configurare un gruppo di accesso per il prodotto di dati, utilizza il
metodo
dataProducts.patch.
Ad esempio, invia la seguente richiesta PATCH:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_groups": ACCESS_GROUPS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID?update_mask="access_groups"
Sostituisci quanto segue:
ACCESS_GROUPS_MAP: un oggetto JSON che rappresenta una mappa in cui ogni chiave è un ID gruppo di accesso e il valore è un oggetto AccessGroup. Ad esempio:
{ "analyst": { "id": "analyst", "display_name": "Analyst access group", "description": "Access group for analysts", "principal": { "google_group": "analyst-team@example.com", "service_account": "analyst-svc@gserviceaccount.com" } }PROJECT_ID: l'ID del tuo progetto Google Cloud
LOCATION: la regione in cui esiste il prodotto di dati
DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
Terraform
Per definire i gruppi di accesso per il tuo prodotto di dati, utilizza il blocco
access_groups nidificato all'interno della risorsa
google_dataplex_data_product.
Ad esempio, utilizza la seguente configurazione:
resource "google_dataplex_data_product" "example_data_product" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
display_name = "DISPLAY_NAME"
owner_emails = ["EMAIL_IDs"]
access_groups {
id = "analyst" # Internal identifier for configuration
group_id = "analyst" # Unique identifier of the access group, should be same as the 'id'
display_name = "Business Analyst"
description = "Access group for regional analysts"
principal {
google_group = "analyst-team@example.com"
}
provider = google-beta
}
Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui esiste il prodotto di dati
- DATA_PRODUCT_ID: un ID univoco per il prodotto di dati
- DISPLAY_NAME: un nome intuitivo per il prodotto di dati
- EMAIL_IDs: indirizzi email separati da virgole dei
proprietari del prodotto di dati, ad
esempio
["user1@example.com", "user2@example.com"]
Configurare le autorizzazioni degli asset
Dopo aver configurato i gruppi di accesso, puoi configurare le autorizzazioni per gli asset nel prodotto di dati.
Console
Nella sezione Asset permissions (Autorizzazioni asset), seleziona l'asset per cui vuoi configurare le autorizzazioni. Puoi selezionare e configurare le autorizzazioni per un massimo di 10 asset alla volta.
Fai clic su Configura autorizzazioni.
Nel campo Seleziona gruppo di accesso, seleziona un gruppo di accesso.
Nel campo Assegna ruolo IAM, seleziona un ruolo IAM che vuoi assegnare al gruppo di accesso.
Ad esempio, se la risorsa è una tabella BigQuery denominata
Salese se hai selezionato il gruppo di accessoAnalyste assegnato il ruoloBigQuery Metadata Viewera questo gruppo di accesso, i consumatori del prodotto di dati che fanno parte del gruppo di accessoAnalystdispongono dell'autorizzazioneBigQuery Metadata Viewersulla tabellaSales.Puoi aggiungere più ruoli a un asset.
Fai clic su Configura. Ora la risorsa mostra le autorizzazioni assegnate.
Per configurare le autorizzazioni per altri asset, ripeti i passaggi.
Fai clic su Continua.
REST
Per configurare le autorizzazioni per gli asset nel prodotto di dati, utilizza il metodo
dataAssets.patch.
Ad esempio, invia la seguente richiesta PATCH:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_group_configs": ACCESS_GROUP_CONFIGS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets/DATA_ASSET_ID?update_mask="access_group_configs"
Sostituisci quanto segue:
ACCESS_GROUP_CONFIGS_MAP: un oggetto JSON che rappresenta una mappa in cui ogni chiave è un ID gruppo di accesso e il valore è un oggetto AccessGroupConfig. Ad esempio:
{ "analyst": { iam_roles: ["roles/bigquery.dataViewer"] } }PROJECT_ID: l'ID del tuo progetto Google Cloud
LOCATION: la regione in cui esiste il prodotto di dati
DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
DATA_ASSET_ID: l'ID dell'asset per cui vuoi configurare le autorizzazioni
Terraform
Assegna ruoli IAM ai tuoi gruppi di accesso per asset specifici
utilizzando il blocco access_group_configs nella risorsa
google_dataplex_data_product_data_asset.
Ad esempio, utilizza la seguente configurazione:
resource "google_dataplex_data_product_data_asset" "example_data_asset" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
data_asset_id = "DATA_ASSET_ID"
resource = "RESOURCE_NAME"
access_group_configs {
access_group = "analyst" # Must match the 'id' defined in google_dataplex_data_product
iam_roles = ["roles/bigquery.dataViewer"]
}
provider = google-beta
}
Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui esiste il prodotto di dati
- DATA_PRODUCT_ID: l'ID del prodotto di dati
- DATA_ASSET_ID: un ID univoco per questo asset di dati all'interno del prodotto di dati
- RESOURCE_NAME: il nome completo della risorsa dell'asset di dati (ad esempio,
//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID)
(Facoltativo) Aggiungi dettagli del contratto e dell'aspetto
Puoi aggiungere contratti e aspetti per un prodotto di dati.
Aggiungere un contratto
Per stabilire una base di fiducia tra produttori e consumatori di dati, puoi allegare un contratto al tuo prodotto di dati. Specificando parametri come l'intervallo di aggiornamento e le soglie, fornisci ai consumatori il contesto necessario per capire quando i dati vengono aggiornati e se soddisfano i loro requisiti aziendali specifici.
Console
Nel riquadro Aggiungi dettagli del contratto e dell'aspetto, fai clic su Aggiungi contratto.
Nel campo Seleziona contratto, seleziona
Refresh cadence.Nel campo Frequenza, seleziona una pianificazione concordata per la frequenza con cui i dati vengono aggiornati o pubblicati, garantendo un flusso prevedibile dal produttore al consumatore di dati. Ad esempio,
Weekly.Nel campo Ora di aggiornamento, inserisci un tempo massimo accettabile tra l'aggiornamento dei dati nell'origine e la loro disponibilità per il consumatore. Ad esempio,
23:00 PST.Nel campo Soglia (in minuti), inserisci un limite misurabile in minuti per il ritardo accettabile nella distribuzione dei dati. Ad esempio, inserisci
30per impostare una soglia di 30 minuti.(Facoltativo) Nel campo Pianificazione cron, inserisci un'espressione cron che definisce la pianificazione per la generazione e la distribuzione dei dati nel formato:
MINUTE HOUR DAY_OF_MONTH MONTH DAY_OF_WEEKI valori accettati sono i seguenti:
- MINUTE:
0-59 - HOUR:
0-23 - DAY_OF_MONTH:
1-31 - MONTH:
1-31oJAN-DEC - DAY_OF_WEEK:
0-6oSUN-SAT
Ad esempio,
0 8 * * 1-5viene eseguito alle 8:00 nei giorni feriali (dal lunedì al venerdì).- MINUTE:
Fai clic su Salva.
REST
I contratti sono modellati come
aspetti del prodotto di dati.
Per aggiungere un contratto Refresh Cadence per un prodotto di dati, utilizza il metodo
entries.patch.
Ad esempio, invia la seguente richiesta PATCH:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
"aspects": {
"dataplex-types.global.refresh-cadence": {
"aspectType": "projects/dataplex-types/locations/global/aspectTypes/refresh-cadence",
"data": {
"frequency": "REFRESH_FREQUENCY"
}
}
}
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"
Sostituisci quanto segue:
- REFRESH_FREQUENCY: la pianificazione concordata per
la frequenza di aggiornamento o consegna dei dati, garantendo un flusso prevedibile dal
produttore al consumatore di dati. Ad esempio:
Weekly - PROJECT_ID: l'ID del tuo Google Cloud progetto in cui viene effettuata la chiamata API
- LOCATION: la regione dell'endpoint di servizio Knowledge Catalog che stai chiamando (ad esempio
us-central1) - DATA_PRODUCT_PROJECT_NUMBER: il numero di progetto in cui si trova la risorsa prodotto dati
- DATA_PRODUCT_LOCATION: la posizione della risorsa prodotto di dati
- DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
Terraform
I contratti sono modellati come
aspetti del prodotto di dati.
Per gestire un contratto, devi gestire la voce Knowledge Catalog
sottostante. Poiché Terraform non rileva automaticamente gli aspetti esistenti, devi prima importare
google_dataplex_entry.
Per importare la voce, utilizza il comando seguente:
terraform import google_dataplex_entry.data_product_metadata "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
Configurazione di Terraform:
resource "google_dataplex_entry" "data_product_metadata" {
project = "DATA_PRODUCT_PROJECT_NUMBER"
location = "LOCATION"
entry_group_id = "@dataplex"
entry_id = "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
entry_type = "projects/655216118709/locations/global/entryTypes/data-product"
aspects {
aspect_key = "655216118709.global.refresh-cadence"
aspect {
data = jsonencode({
frequency = "REFRESH_FREQUENCY"
})
}
}
provider = google-beta
}
Sostituisci quanto segue:
- DATA_PRODUCT_PROJECT_NUMBER: il numero di progetto in cui si trova la risorsa prodotto di dati
- LOCATION: la regione dell'endpoint di servizio Knowledge Catalog che stai chiamando (ad esempio
us-central1) - DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
- REFRESH_FREQUENCY: la pianificazione concordata per
la frequenza di aggiornamento o consegna dei dati, garantendo un flusso prevedibile dal produttore al consumatore di dati. Ad esempio:
Weekly
Per informazioni generali sul processo di importazione, consulta la documentazione sull'importazione di Terraform.
Aggiungi aspetti
Utilizza gli aspetti per arricchire il tuo prodotto di dati con metadati strutturati e riutilizzabili. Questi modelli forniscono un modo standardizzato per i produttori di dati di comunicare la qualità e l'idoneità di un prodotto di dati, migliorando la governance e aiutando i consumatori a determinare se il prodotto soddisfa le loro esigenze aziendali.
Per aggiungere aspetti per il prodotto di dati:
Console
Nel riquadro Aggiungi dettagli del contratto e dell'aspetto, fai clic su + Aggiungi aspetto.
Nel campo Seleziona tipo di aspetto, cerca e seleziona un tipo di aspetto dall'elenco. Ad esempio,
Geo context.Fai clic su Salva.
REST
Per aggiungere aspetti a un prodotto di dati, utilizza il metodo
entries.patch.
Ad esempio, invia la seguente richiesta PATCH:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
"aspects": {
"ASPECT_PROJECT_ID.ASPECT_LOCATION.ASPECT_NAME": {
"aspectType": "projects/ASPECT_PROJECT_ID/locations/ASPECT_LOCATION/aspectTypes/ASPECT_NAME",
"data": {}
}
}
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"
Sostituisci quanto segue:
- ASPECT_PROJECT_ID: l'ID del tuo progetto Google Cloud in cui viene creato l'aspetto
- ASPECT_LOCATION: la regione dell'endpoint di servizio Knowledge Catalog in cui viene creato l'aspetto
(ad esempio,
us-central1) - ASPECT_NAME: il nome dell'aspetto che vuoi collegare al prodotto di dati
- PROJECT_ID: l'ID del tuo Google Cloud progetto in cui viene effettuata la chiamata API
- LOCATION: la regione dell'endpoint di servizio Knowledge Catalog che stai chiamando (ad esempio
us-central1) - DATA_PRODUCT_PROJECT_NUMBER: il numero di progetto in cui si trova la risorsa prodotto di dati
- DATA_PRODUCT_LOCATION: la posizione della risorsa prodotto di dati
- DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
Terraform
Per gestire gli aspetti, devi gestire la voce di Knowledge Catalog sottostante.
Poiché Terraform non rileva automaticamente gli aspetti esistenti, devi
prima importare
google_dataplex_entry.
Per importare la voce, utilizza il comando seguente:
terraform import google_dataplex_entry.data_product_metadata "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
Configurazione di Terraform:
resource "google_dataplex_entry" "data_product_metadata" {
project = "DATA_PRODUCT_PROJECT_NUMBER"
location = "LOCATION"
entry_group_id = "@dataplex"
entry_id = "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
entry_type = "projects/655216118709/locations/global/entryTypes/data-product"
aspects {
aspect_key = "ASPECT_PROJECT_NUMBER.ASPECT_LOCATION.ASPECT_NAME"
aspect {
data = {}
}
}
provider = google-beta
}
Sostituisci quanto segue:
- DATA_PRODUCT_PROJECT_NUMBER: il numero di progetto in cui si trova la risorsa prodotto di dati
- LOCATION: la regione dell'endpoint di servizio Knowledge Catalog che stai chiamando (ad esempio
us-central1) - DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
- ASPECT_PROJECT_NUMBER: il numero del Google Cloud progetto in cui viene creato l'aspetto
- ASPECT_LOCATION: la regione dell'endpoint di servizio Knowledge Catalog in cui viene creato l'aspetto
(ad esempio,
us-central1) - ASPECT_NAME: il nome dell'aspetto che vuoi collegare al prodotto di dati
Per informazioni generali sul processo di importazione, consulta la documentazione sull'importazione di Terraform.
(Facoltativo) Aggiungi ulteriori dettagli
Puoi aggiungere documentazione e query di esempio per il tuo prodotto di dati per fornire
contesto essenziale, descrizioni della logica di business e guide per l'utente. In
Knowledge Catalog, la documentazione viene gestita tramite l'aspetto di sistema overview.
Puoi creare manualmente questa documentazione o utilizzare gli approfondimenti sui dati di Knowledge Catalog per generarla automaticamente.
Aggiungere manualmente documentazione e query di esempio
Console
Per aggiungere la documentazione per il tuo prodotto di dati:
Nel riquadro Aggiungi ulteriori dettagli, fai clic su Modifica accanto a Documentazione.
Digita i contenuti nell'editor RTF.
Fai clic su Salva.
Per aggiungere query di esempio per il tuo prodotto di dati:
Nel riquadro Aggiungi ulteriori dettagli, fai clic su Aggiungi query nella sezione Suggerimenti per le query.
Digita le query di esempio.
Fai clic su Salva.
Il prodotto di dati appena creato viene visualizzato nella pagina Prodotti di dati di Knowledge Catalog.
REST
La documentazione è modellata come
aspetti del prodotto di dati.
Per aggiungere la documentazione, utilizza il metodo entries.patch.
Ad esempio, invia la seguente richiesta PATCH:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
"aspects": {
"dataplex-types.global.overview": {
"aspectType": "projects/dataplex-types/locations/global/aspectTypes/overview",
"data": {
"content": "DOCUMENTATION"
}
}
}
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"
Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo Google Cloud progetto in cui viene effettuata la chiamata API
- LOCATION: la regione dell'endpoint di servizio Knowledge Catalog che stai chiamando (ad esempio
us-central1) - DATA_PRODUCT_PROJECT_NUMBER: il numero di progetto in cui si trova la risorsa prodotto di dati
- DATA_PRODUCT_LOCATION: la posizione della risorsa prodotto di dati
- DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
- DOCUMENTATION: i contenuti che vuoi allegare al prodotto dati
Terraform
La documentazione è modellata come
aspetti del prodotto di dati.
Per gestire la documentazione, devi gestire la voce Knowledge Catalog sottostante. Poiché Terraform non rileva automaticamente gli aspetti esistenti, devi prima importare
google_dataplex_entry.
Per importare la voce, utilizza il comando seguente:
terraform import google_dataplex_entry.data_product_metadata "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
Configurazione di Terraform:
resource "google_dataplex_entry" "data_product_metadata" {
project = "DATA_PRODUCT_PROJECT_NUMBER"
location = "LOCATION"
entry_group_id = "@dataplex"
entry_id = "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
entry_type = "projects/655216118709/locations/global/entryTypes/data-product"
aspects {
aspect_key = "655216118709.global.overview"
aspect {
data = jsonencode({
content = "DOCUMENTATION"
})
}
}
provider = google-beta
}
Sostituisci quanto segue:
- DATA_PRODUCT_PROJECT_NUMBER: il numero di progetto in cui si trova la risorsa prodotto di dati
- LOCATION: la regione dell'endpoint di servizio Knowledge Catalog che stai chiamando (ad esempio
us-central1) - DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
- DOCUMENTATION: i contenuti che vuoi allegare al prodotto dati
Per informazioni generali sul processo di importazione, consulta la documentazione sull'importazione di Terraform.
Generare documentazione automatica e query di esempio utilizzando gli approfondimenti sui dati
Prima di generare documentazione e query di esempio utilizzando Gemini, completa i seguenti prerequisiti:
Abilita l'API Gemini for Google Cloud nel progetto in cui crei il prodotto di dati.
Concedi ruoli utente specifici per gli approfondimenti: chiedi all'amministratore di concedere alla tua identità i seguenti ruoli e autorizzazioni nel progetto del prodotto dati:
- Genera e gestisci gli approfondimenti sui dati: Dataplex DataScan Editor
(
roles/dataplex.dataScanEditor) o Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) nel progetto in cui si trova il prodotto dati - Visualizza gli insight generati: Dataplex DataScan DataViewer
(
roles/dataplex.dataScanDataViewer) nel progetto in cui risiede il prodotto di dati
- Genera e gestisci gli approfondimenti sui dati: Dataplex DataScan Editor
(
Configura le autorizzazioni dell'agente di servizio tra progetti. Se gli asset di dati sottostanti si trovano in un progetto diverso da quello del prodotto di dati, devi concedere l'accesso a questi asset all'agente di servizio Knowledge Catalog (P4SA): Google Cloud
Per generare o recuperare l'identificatore dell'agente di servizio per il progetto del prodotto dati, esegui questo comando Google Cloud CLI:
gcloud beta services identity create --service=dataplex.googleapis.com --project=DATA_PRODUCT_PROJECT_IDSostituisci DATA_PRODUCT_PROJECT_ID con l'ID progettoGoogle Cloud in cui si trova il tuo prodotto di dati.
In ogni progetto esterno in cui risiedono gli asset, concedi all'agente di servizio del progetto del prodotto dati i seguenti ruoli:
BigQuery Data Editor (
roles/bigquery.dataEditor) nelle tabelle e nei set di dati sottostantiAmministratore BigQuery Studio (
roles/bigquery.studioAdmin) nel progetto asset
Per generare la documentazione e le query di esempio per il tuo prodotto di dati utilizzando gli approfondimenti sui dati, completa i seguenti passaggi:
Console
Nel riquadro Aggiungi ulteriori dettagli, nella barra Genera approfondimenti con Gemini, fai clic su Genera.
Attendi qualche minuto per il completamento del processo di generazione degli approfondimenti.
Per rivedere i contenuti generati, fai clic su Visualizza.
Valuta i contenuti generati:
Se i contenuti sono accurati, fai clic su Salva. In questo modo, l'editor di testo RTF viene compilato con un modello di documentazione predefinito e vengono aggiunte query di esempio alla sezione Approfondimenti.
Se i contenuti non soddisfano le tue aspettative, fai clic su Annulla.
Fai clic su Salva per finalizzare.
REST
Per generare, recuperare e applicare automaticamente la documentazione e gli approfondimenti utilizzando l'API, esegui la seguente serie di chiamate all'API DataScans di Knowledge Catalog.
Genera documentazione automatica.
Per attivare la generazione automatica della documentazione, crea una scansione dei dati di tipo
DATA_DOCUMENTATIONinviando una richiestaPOSTall'endpointdataScans:curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d '{ "data": { "resource": "DATA_PRODUCT_RESOURCE_NAME" }, "executionSpec": { "trigger": { "oneTime": { "ttl_after_scan_completion": "TTL" } } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": {} }' \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?data_scan_id=DATA_SCAN_ID"Sostituisci quanto segue:
- DATA_PRODUCT_RESOURCE_NAME: il nome completo della risorsa del prodotto dati di destinazione da analizzare.
- TTL: la durata in secondi dopo
la quale la risorsa di scansione deve essere eliminata automaticamente (ad esempio,
3600per un'ora). Se non è specificato, il valore predefinito è 24 ore. Il valore massimo consentito è 365 giorni (31536000secondi). - PROJECT_ID: l'ID del tuo progetto Google Cloud
- LOCATION: la regione in cui viene eseguita la scansione dei dati
- DATA_SCAN_ID: un ID univoco che fornisci per questa scansione
Recupera la documentazione generata.
Al termine del job di scansione dei dati, recupera la documentazione generata e gli approfondimenti sulle query inviando una richiesta
GETcon il parametroview=full:curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATA_SCAN_ID?view=full"Salva le query generate nel prodotto dati.
Estrai gli snippet SQL generati dall'output della scansione dei dati nel passaggio precedente e allegali alla voce del prodotto di dati aggiornando il relativo aspetto
queriestramite una richiestaPATCH:curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d '{ "aspects": { "dataplex-types.global.queries": { "aspectType": "projects/dataplex-types/locations/global/aspectTypes/queries", "data": { "queries": [ { "description": "QUERY_DESCRIPTION", "sql": "SQL_STATEMENT", "source": "USER" } ] } } } }' \ "https://dataplex.googleapis.com/v1/projects/CATALOG_PROJECT_ID/locations/CATALOG_LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"Sostituisci quanto segue:
QUERY_DESCRIPTION: una descrizione che spiega cosa fa la query di esempio consigliata
SQL_STATEMENT: il testo letterale della query SQL di esempio generata
CATALOG_PROJECT_ID: l'ID del progettoGoogle Cloud in cui stai effettuando la chiamata API
CATALOG_LOCATION: l'endpoint regionale per il servizio Knowledge Catalog (ad esempio,
us-central1)DATA_PRODUCT_PROJECT_NUMBER: il numero del progetto in cui è ospitata la risorsa prodotto dati
DATA_PRODUCT_LOCATION: la posizione della risorsa prodotto di dati
DATA_PRODUCT_ID: l'ID del tuo prodotto di dati
Passaggi successivi
- Scopri di più sulla gestione dei prodotti di dati.
- Scopri come cercare i prodotti di dati.
- In qualità di consumatore di dati, scopri come richiedere l'accesso ai prodotti di dati.