Creare prodotti di dati

Questo documento è destinato ai proprietari di prodotti di dati che vogliono creare e configurare i prodotti di dati in Dataplex Universal Catalog.

Per saperne di più sull'architettura e sui concetti chiave dei prodotti di dati, consulta Informazioni sui prodotti di dati.

Prima di iniziare

  1. Enable the Dataplex, BigQuery APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  2. Assicurati che gli asset di dati (ad esempio, set di dati, tabelle e viste BigQuery) siano creati e compilati.

    Per saperne di più sulla creazione di asset di dati, consulta i seguenti documenti:

  3. Identifica o crea i gruppi Google che vuoi configurare nel tuo prodotto di dati. Ogni prodotto di dati deve avere un gruppo Google univoco.

Ruoli obbligatori

Questa sezione descrive i ruoli IAM minimi richiesti per due gruppi di utenti principali: i proprietari dei prodotti di dati (coloro che creano e gestiscono i prodotti di dati) e i consumatori dei prodotti di dati (coloro che cercano e utilizzano i prodotti di dati).

Ruoli per un proprietario del prodotto di dati

Per ottenere le autorizzazioni necessarie per creare e gestire i prodotti di dati, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare e gestire i prodotti di dati. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per creare e gestire i prodotti di dati sono necessarie le seguenti autorizzazioni:

  • Modifica il tipo di aspetto di sistema overview: dataplex.entryGroups.useOverviewAspect
  • Modifica il tipo di aspetto di sistema refresh cadence: dataplex.entryGroups.useRefreshCadenceAspect

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Ruoli per un consumatore di prodotti di dati

Affinché i consumatori di prodotti di dati possano cercare, visualizzare e richiedere l'accesso ai prodotti di dati, in qualità di proprietario di un prodotto di dati, devi assicurarti che il prodotto di dati sia rilevabile. Per farlo, concedi ai consumatori del prodotto di dati i seguenti ruoli IAM sul prodotto di dati:

  • Cerca i prodotti di dati e accedi a questi nella ricerca di Dataplex Universal Catalog: Dataplex Data Product Consumer (dataplex.dataProductsConsumer)
  • Accesso di sola lettura per visualizzare le definizioni e i metadati dei prodotti di dati: Dataplex Data Product Viewer (dataplex.dataProductsViewer)
  • Richiedi l'accesso ai prodotti di dati: Dataplex Data Product Consumer (dataplex.dataProductsConsumer)

Creare e configurare un prodotto di dati

La creazione di un prodotto di dati comporta le seguenti attività di alto livello:

  1. Creare un prodotto di dati

    Questo passaggio iniziale obbligatorio richiede la definizione di dettagli di base, come un nome univoco del prodotto di dati, una descrizione, la regione in cui viene creato il prodotto di dati e i dettagli del proprietario.

  2. (Facoltativo) Aggiungere asset

    In questa fase, seleziona gli asset da includere nel prodotto di dati. Un vincolo fondamentale è che gli asset devono risiedere nella stessa regione del prodotto di dati stesso. Puoi aggiungere un massimo di 10 asset a un prodotto di dati.

    Per l'elenco degli asset supportati, consulta la sezione Asset supportati.

  3. (Facoltativo) Configura i gruppi di accesso e le autorizzazioni per gli asset

    In questa fase facoltativa, semplifichi controllo dell'accesso creando gruppi di accesso. Questi gruppi di accesso fungono da alias intuitivi (ad esempio, Analyst o Reader) per i gruppi Google sottostanti. Assegni poi le autorizzazioni selezionando un ruolo IAM specifico e mappandolo a un gruppo di accesso per un asset specifico.

  4. (Facoltativo) Aggiungi ulteriori dettagli, come contratti, aspetti e documentazione

    Questa fase facoltativa migliora la governance e i metadati. Puoi aggiungere un contratto, che è un tipo di aspetto proprietario, per comunicare formalmente la cadenza di aggiornamento dei dati concordata, specificando parametri come la frequenza di aggiornamento, l'ora di aggiornamento e la soglia. Includi anche Aspetti per fornire metadati aggiuntivi per il tuo prodotto di dati. Inoltre, puoi aggiungere documentazione in formato RTF, come guide dell'utente e query di esempio.

Per creare e configurare un prodotto di dati, completa i passaggi descritti nelle sezioni seguenti:

Creare un prodotto di dati

Console

  1. Nella console Google Cloud , vai alla pagina Prodotti di dati di Dataplex Universal Catalog.

    Vai a Prodotti di dati

  2. Fai clic su Crea.

  3. Nel riquadro Crea prodotti di dati, inserisci i seguenti dettagli:

    • Nome prodotto di dati: inserisci un nome univoco per il prodotto di dati.
    • ID prodotto di dati: un identificatore univoco generato automaticamente. Questo campo è modificabile.
    • ID progetto: un identificatore univoco del progetto in cui viene creato il prodotto dati. Sfoglia e seleziona il progetto.
    • Regione: seleziona la regione o la multi-regione in cui viene creato il prodotto di dati.
    • Icona: sfoglia e seleziona un'icona per identificare visivamente il prodotto di dati. Questa opzione è facoltativa.
    • Descrizione: inserisci una breve descrizione del prodotto di dati.
    • Contatti: inserisci l'ID email del proprietario del prodotto di dati.
    • Etichette: aggiungi etichette chiave-valore per organizzare le risorse. Questa opzione è facoltativa.
  4. Fai clic su Crea prodotto di dati.

REST

Per creare un prodotto di dati, utilizza il metodo dataProducts.create.

Ad esempio, invia la seguente richiesta POST:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"display_name": "DISPLAY_NAME", "owner_emails": ["EMAIL_IDs"]}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts?data_product_id=DATA_PRODUCT_ID

Sostituisci quanto segue:

  • DISPLAY_NAME: un nome intuitivo per il tuo prodotto di dati
  • EMAIL_IDs: ID email separati da virgole dei proprietari del prodotto dati
  • PROJECT_ID: l'ID del tuo progetto Google Cloud
  • LOCATION: la regione in cui vuoi creare il prodotto di dati
  • DATA_PRODUCT_ID: un ID univoco per il tuo prodotto di dati

(Facoltativo) Aggiungi asset

Console

  1. Nel riquadro Aggiungi asset, fai clic su +Aggiungi.

  2. Cerca e seleziona gli asset che vuoi aggiungere al tuo prodotto di dati. Gli asset selezionati devono risiedere nella stessa regione del prodotto di dati.

    Se disponi delle autorizzazioni necessarie, puoi visualizzare i metadati degli asset facendo clic sull'asset.

  3. Per perfezionare i risultati di ricerca, utilizza i filtri.

  4. Dopo aver selezionato gli asset, fai clic su Aggiungi.

  5. Fai clic su Continua.

REST

Per aggiungere un asset di dati al prodotto di dati, utilizza il metodo dataAssets.create.

Ad esempio, invia la seguente richiesta POST:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"resource": "RESOURCE_NAME"}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets?data_asset_id=DATA_ASSET_ID

Sostituisci quanto segue:

  • RESOURCE_NAME: il nome completo della risorsa dell'asset di dati (ad esempio, //bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID)
  • PROJECT_ID: l'ID del tuo progetto Google Cloud
  • LOCATION: la regione in cui esiste il prodotto di dati
  • DATA_PRODUCT_ID: l'ID del prodotto di dati
  • DATA_ASSET_ID: un ID univoco per questa risorsa dati all'interno del prodotto dati

(Facoltativo) Configura i gruppi di accesso e le autorizzazioni per gli asset

Nel riquadro Configura gruppi di accesso e autorizzazioni per gli asset, puoi creare gruppi di accesso e assegnare autorizzazioni agli asset.

Configura gruppi di accesso

Console

  1. Fai clic su Aggiungi gruppo di accesso.

  2. Nel campo Nome gruppo di accesso, inserisci un nome per il gruppo di accesso. Ad esempio, Analyst.

  3. Nel campo Descrizione gruppo di accesso, inserisci una descrizione per il gruppo di accesso.

  4. Nel campo Identificatore gruppo di accesso, inserisci l'indirizzo email di un gruppo Google che vuoi assegnare a questo gruppo di accesso. I consumer del prodotto di dati che richiedono l'accesso a questo gruppo di accesso possono essere aggiunti come membri al gruppo Google mappato.

    Se non hai un gruppo Google, puoi crearne uno. Per saperne di più, consulta Creare e gestire i Gruppi Google nella console Google Cloud .

  5. Fai clic su Aggiungi.

REST

Per configurare un gruppo di accesso per il prodotto di dati, utilizza il metodo dataProducts.patch.

Ad esempio, invia la seguente richiesta PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_groups": ACCESS_GROUPS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID?update_mask="access_groups"

Sostituisci quanto segue:

  • ACCESS_GROUPS_MAP: un oggetto JSON che rappresenta una mappa in cui ogni chiave è un ID gruppo di accesso e il valore è un oggetto AccessGroup. Ad esempio:

    {
    "analyst": {
      "id": "analyst","display_name": "Analyst access group","description": "Access group for analysts","principal":
    {"google_group": "analyst-team@example.com"}
      }
    }
    
  • PROJECT_ID: l'ID del tuo progetto Google Cloud

  • LOCATION: la regione in cui esiste il prodotto di dati

  • DATA_PRODUCT_ID: l'ID del tuo prodotto di dati

Configurare le autorizzazioni degli asset

Dopo aver configurato i gruppi di accesso, puoi configurare le autorizzazioni per gli asset nel prodotto di dati.

Console

  1. Nella sezione Autorizzazioni asset, seleziona l'asset per cui vuoi configurare le autorizzazioni.

  2. Fai clic su Configura autorizzazioni.

  3. Nel campo Seleziona gruppo di accesso, seleziona un gruppo di accesso.

  4. Nel campo Assegna ruolo IAM, seleziona un ruolo IAM che vuoi assegnare al gruppo di accesso.

    Ad esempio, se la risorsa è una tabella BigQuery denominata Sales e se hai selezionato il gruppo di accesso Analyst e assegnato il ruolo BigQuery Metadata Viewer a questo gruppo di accesso, i consumatori del prodotto di dati che fanno parte del gruppo di accesso Analyst dispongono dell'autorizzazione BigQuery Metadata Viewer sulla tabella Sales.

    Puoi aggiungere più ruoli a un asset.

  5. Fai clic su Configura. Ora la risorsa mostra le autorizzazioni assegnate.

  6. Per configurare le autorizzazioni per altri asset, ripeti i passaggi.

  7. Fai clic su Continua.

REST

Per configurare le autorizzazioni per gli asset nel prodotto di dati, utilizza il metodo dataAssets.patch.

Ad esempio, invia la seguente richiesta PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_group_configs": ACCESS_GROUP_CONFIGS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets/DATA_ASSET_ID?update_mask="access_group_configs"

Sostituisci quanto segue:

  • ACCESS_GROUP_CONFIGS_MAP: un oggetto JSON che rappresenta una mappa in cui ogni chiave è un ID gruppo di accesso e il valore è un oggetto AccessGroupConfig. Ad esempio:

    {
    "analyst": {
      iam_roles: ["roles/bigquery.dataViewer"]
      }
    }
    
  • PROJECT_ID: l'ID del tuo progetto Google Cloud

  • LOCATION: la regione in cui esiste il prodotto di dati

  • DATA_PRODUCT_ID: l'ID del tuo prodotto di dati

  • DATA_ASSET_ID: l'ID dell'asset per cui vuoi configurare le autorizzazioni

(Facoltativo) Aggiungi ulteriori dettagli

Puoi anche aggiungere contratti, aspetti e documentazione aggiuntiva per il prodotto di dati.

Aggiungere un contratto

Console

  1. Nel riquadro Aggiungi dettagli aggiuntivi, fai clic su Aggiungi contratto.

  2. Nel campo Seleziona contratto, seleziona Refresh cadence.

  3. Nel campo Frequenza, seleziona una pianificazione concordata per la frequenza con cui i dati vengono aggiornati o pubblicati, garantendo un flusso prevedibile dal produttore al consumatore di dati. Ad esempio, Weekly.

  4. Nel campo Ora di aggiornamento, inserisci un tempo massimo accettabile tra l'aggiornamento dei dati nell'origine e la loro disponibilità per il consumatore. Ad esempio, 23:00 PST.

  5. Nel campo Soglia (in minuti), inserisci un limite misurabile in minuti per il ritardo accettabile nella distribuzione dei dati. Ad esempio, inserisci 30 per impostare la soglia su 30 minuti.

  6. (Facoltativo) Nel campo Pianificazione cron, inserisci un'espressione cron che definisce la pianificazione per la generazione e la distribuzione dei dati nel formato: MINUTE HOUR DAY_OF_MONTH MONTH DAY_OF_WEEK

    I valori accettati sono i seguenti:

    • MINUTE: 0-59
    • HOUR: 0-23
    • DAY_OF_MONTH: 1-31
    • MONTH: 1-31 o JAN-DEC
    • DAY_OF_WEEK: 0-6 o SUN-SAT

    Ad esempio, 0 8 * * 1-5 viene eseguito alle 8:00 nei giorni feriali (dal lunedì al venerdì).

  7. Fai clic su Salva.

REST

I contratti sono modellati come aspetti del prodotto di dati. Per aggiungere un contratto Refresh Cadence per un prodotto di dati, utilizza il metodo entries.patch.

Ad esempio, invia la seguente richiesta PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
  "aspects": {
    "dataplex-types.global.refresh-cadence": {
      "aspectType": "projects/dataplex-types/locations/global/aspectTypes/refresh-cadence",
      "data": {
        "frequency": "REFRESH_FREQUENCY"
      }
    }
  }
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_ID/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"

Sostituisci quanto segue:

  • REFRESH_FREQUENCY: la pianificazione concordata per la frequenza di aggiornamento o consegna dei dati, garantendo un flusso prevedibile dal produttore al consumatore di dati. Ad esempio: Weekly
  • PROJECT_ID: l'ID del tuo Google Cloud progetto in cui viene effettuata la chiamata API
  • LOCATION: la regione dell'endpoint di servizio Dataplex Universal Catalog che stai chiamando (ad esempio us-central1)
  • DATA_PRODUCT_PROJECT_ID: l'ID progetto in cui si trova la risorsa prodotto dati
  • DATA_PRODUCT_LOCATION: la posizione della risorsa prodotto di dati
  • DATA_PRODUCT_ID: l'ID del tuo prodotto di dati

Aggiungere metadati aggiuntivi

Per aggiungere altri metadati per il prodotto di dati come aspetti:

Console

  1. Nel riquadro Aggiungi ulteriori dettagli, fai clic su + Aggiungi aspetto.

  2. Nel campo Seleziona tipo di aspetto, cerca e seleziona un tipo di aspetto dall'elenco. Ad esempio, Geo context.

  3. Nel campo Paese, seleziona il paese a cui appartiene l'asset.

  4. Nel campo Regione, seleziona la regione aziendale a cui appartiene l'asset.

  5. Fai clic su Salva.

  6. Per aggiungere ulteriore documentazione, come la guida dell'utente o query di esempio, fai clic su Modifica accanto a Documentazione. Si apre un editor RTF. Aggiungi i contenuti e fai clic su Salva.

  7. Fai clic su Salva.

    Il prodotto di dati appena creato viene visualizzato nella pagina Prodotti di dati di Dataplex Universal Catalog.

REST

Per aggiungere aspetti e documentazione per un prodotto di dati, utilizza il metodo entries.patch.

La documentazione di un prodotto di dati viene gestita tramite il tipo di aspetto del sistema overview.

Passaggi successivi