Best practice per Knowledge Catalog

Questo documento fornisce indicazioni e best practice per l'utilizzo di Knowledge Catalog (precedentemente Dataplex Universal Catalog).

Scegli un progetto per il tuo lake

Quando selezioni il progetto in cui ospitare il tuo lake, considera i seguenti fattori:

  • Il progetto deve appartenere allo stesso perimetro dei Controlli di servizio VPC dei dati destinati a trovarsi nel lake.

  • Il account di servizio del lake richiede autorizzazioni di amministratore per i bucket Cloud Storage o i set di dati BigQuery. Knowledge Catalog crea tabelle esterne in BigQuery per le tabelle rilevate in Cloud Storage. Knowledge Catalog rende disponibili anche i metadati delle tabelle BigQuery e le tabelle rilevate nel bucket Cloud Storage in un servizio Dataproc Metastore. Dataproc Metastore si trova all'interno del progetto data lake.

Impostazioni e limitazioni di Cloud Storage

  • Regione: Knowledge Catalog supporta bucket a singola regione e multiregionali in alcune Google Cloud regioni.

  • Classe di archiviazione: sono supportati i bucket Cloud Storage di tutte le classi di archiviazione (Standard, Nearline, Coldline, Archive). Potrebbero essere addebitati costi aggiuntivi per il recupero dei dati per l'accesso o la scansione di dati Nearline, Coldline o Archive.

  • ACL bucket: Knowledge Catalog supporta solo i bucket Cloud Storage con controlli dell'accesso uniformi. I controlli dell'accesso granulare non sono supportati.

  • Pagamenti a carico del richiedente: i bucket Cloud Storage con la funzionalità Pagamenti a carico del richiedente abilitata non sono supportati.

Indicazioni su sicurezza e autorizzazioni

Knowledge Catalog richiede l'aggiunta dei service account di Knowledge Catalog come account di servizio amministrativo su bucket e set di dati gestiti.

Knowledge Catalog consente agli analisti di accedere ai bucket Cloud Storage e ai set di dati BigQuery in molti progetti. Per abilitare questo accesso, Knowledge Catalog richiede l'aggiunta degli account di servizio Knowledge Catalog con controlli amministrativi a questi progetti.

Per Discovery, Knowledge Catalog aggiunge il account di servizio Dataproc Metastore ai bucket Cloud Storage. Se hai un tuo cluster Dataproc Metastore, potresti voler fare in modo che il lake Knowledge Catalog utilizzi il tuo servizio Dataproc Metastore, che è un'opzione disponibile quando crei il lake.

Se scegli di aggiungere un bucket Cloud Storage con accesso granular a un lake, Knowledge Catalog fornirà l'accesso completo a quel bucket tramite il lake perché le autorizzazioni di Knowledge Catalog vengono propagate a tutti gli oggetti nel bucket. Se hai bisogno di un accesso granulare, ti consigliamo di dividere i dati nel bucket in più bucket.

Passaggi successivi