Dieses Dokument enthält Anleitungen und Best Practices für die Verwendung von Knowledge Catalog (früher Dataplex Universal Catalog).
Projekt für Ihren Lake auswählen
Berücksichtigen Sie bei der Auswahl des Projekts, in dem Ihr Data Lake gehostet werden soll, die folgenden Faktoren:
Das Projekt muss zum selben VPC Service Controls-Perimeter gehören wie die Daten, die sich im Data Lake befinden sollen.
Das Dienstkonto für den Data Lake benötigt Administratorberechtigungen für die Cloud Storage-Buckets oder BigQuery-Datasets. Knowledge Catalog erstellt externe Tabellen in BigQuery für Tabellen, die in Cloud Storage erkannt wurden. Knowledge Catalog stellt auch BigQuery-Tabellenmetadaten und Tabellen, die im Cloud Storage-Bucket erkannt wurden, in einem Dataproc Metastore-Dienst zur Verfügung. Der Dataproc Metastore befindet sich im Data Lake-Projekt.
Cloud Storage-Einstellungen und ‑Einschränkungen
Region: Knowledge Catalog unterstützt Single-Region- und Multi-Region-Buckets in einigen Google Cloud Regionen.
Speicherklasse: Cloud Storage-Buckets aller Speicherklassen werden unterstützt (Standard, Nearline, Coldline, Archive). Für den Zugriff auf oder das Scannen von Nearline-, Coldline- oder Archive-Daten können zusätzliche Kosten für den Datenabruf anfallen.
Bucket-ACL: Knowledge Catalog unterstützt nur Cloud Storage-Buckets mit einheitlichen Zugriffssteuerungen. Detaillierte Zugriffssteuerungen werden nicht unterstützt.
Anforderer bezahlt: Cloud Storage-Buckets, für die die Funktion Anforderer bezahlt aktiviert ist, werden nicht unterstützt.
Leitfaden zu Sicherheit und Berechtigungen
Für Knowledge Catalog müssen die Dienstkonten von Knowledge Catalog als administratives Dienstkonto für verwaltete Buckets und Datasets hinzugefügt werden.
Mit dem Knowledge Catalog können Analysten auf Cloud Storage-Buckets und BigQuery-Datasets in vielen Projekten zugreifen. Damit dieser Zugriff möglich ist, müssen die Knowledge Catalog-Dienstkonten mit Administratorberechtigungen für diese Projekte hinzugefügt werden.
Für Discovery fügt Knowledge Catalog das Dataproc Metastore-Dienstkonto den Cloud Storage-Buckets hinzu. Wenn Sie einen eigenen Dataproc Metastore-Cluster haben, können Sie den Knowledge Catalog-Lake so konfigurieren, dass er Ihren Dataproc Metastore-Dienst verwendet. Diese Option ist verfügbar, wenn Sie den Lake erstellen.
Wenn Sie einem Data Lake einen Cloud Storage-Bucket mit detailliertem Zugriff hinzufügen, bietet Knowledge Catalog über den Data Lake vollen Zugriff auf diesen Bucket, da Knowledge Catalog-Berechtigungen auf alle Objekte im Bucket übertragen werden. Wenn Sie einen detaillierten Zugriff benötigen, empfiehlt es sich, die Daten in Ihrem Bucket in mehrere Buckets aufzuteilen.