In diesem Dokument wird beschrieben, was Knowledge Catalog-Zonen (ehemals Dataplex Universal Catalog) sind und wie Sie sie Ihrem Knowledge Catalog-Lake hinzufügen.
Übersicht
Knowledge Catalog-Zonen sind benannte Entitäten in einem Knowledge Catalog-Lake. Sie sind logische Gruppierungen von unstrukturierten, semistrukturierten und strukturierten Daten, die aus mehreren Assets bestehen, z. B. Cloud Storage-Buckets, BigQuery-Datasets und BigQuery-Tabellen.
Ein Lake kann eine oder mehrere Zonen enthalten. Eine Zone kann nur Teil eines Lakes sein, aber Assets enthalten, die auf Ressourcen verweisen, die Teil von Projekten außerhalb des übergeordneten Projekts sind.
Sie können Konfigurationen für eine Zone in Knowledge Catalog auswählen. Es gibt zwei Arten von Zonen: Rohdatenzonen und ausgewählte Zonen.
Rohdatenzonen
In Rohdatenzonen werden strukturierte Daten, semistrukturierte Daten wie CSV- und JSON-Dateien sowie unstrukturierte Daten in einem beliebigen Format aus externen Quellen gespeichert. Rohdatenzonen eignen sich gut für das Staging von Rohdaten vor der Durchführung von Transformationen. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.
Rohdatenzonen unterstützen die Granularität auf Bucket- oder Dataset-Ebene für Lese- und Schreibberechtigungen. Es gibt keine Einschränkungen hinsichtlich der Art der Daten, die in Rohdatenzonen gespeichert werden können.
Ausgewählte Zonen
In ausgewählten Zonen werden strukturierte Daten gespeichert. Daten können in Cloud Storage-Buckets oder BigQuery-Datasets gespeichert werden.
Zu den unterstützten Formaten für Cloud Storage-Buckets gehören Parquet, Avro und ORC. Ausgewählte Zonen eignen sich gut für das Staging von Daten, die vor der Verwendung für Analysen verarbeitet werden müssen, oder für die Bereitstellung von Daten, die für Analysen bereit sind.
Für BigQuery-Tabellen müssen Sie ein klar definiertes Schema und Partitionen im Hive-Stil haben. Wenn Sie ein Schema für eine bestimmte Tabelle in einer ausgewählten Zone angeben, müssen die Daten dem für die Tabelle definierten Schema entsprechen, ohne dass es zu einer Schemaabweichung kommt. Das bedeutet, dass die Daten mit dem für die Tabelle definierten Schema kompatibel sein müssen und neue Partitionen kein Schema haben dürfen, das mit dem Tabellenschema in Konflikt steht.
Ausgewählte Zonen unterstützen die Granularität auf Cloud Storage-Bucket- oder BigQuery-Dataset-Ebene für Lese- und Schreibberechtigungen.
Hinweis
Bevor Sie einem Lake Zonen hinzufügen können, müssen Sie einen Lake haben. Wenn Sie noch keinen Lake haben, erstellen Sie einen.
Für die meisten gcloud lake-Befehle ist ein Speicherort erforderlich. Sie können den Speicherort mit dem Parameter --location angeben.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die
Dataplex Administrator (roles/dataplex.admin) IAM-Rolle für Ihr Projekt zuzuweisen, um die Berechtigung zum Hinzufügen einer Zone zu erhalten.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierte Rolle enthält die
dataplex.lakes.create
Berechtigung,
die zum
Hinzufügen einer Zone erforderlich ist.
Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Zonen hinzufügen
Sie können Ihrem Lake mehrere Zonen hinzufügen. Sie können jeweils eine Zone hinzufügen und Ihren Lake weiterhin verwenden, während die Zone erstellt wird.
So fügen Sie einem vorhandenen Lake eine Zone hinzu:
Console
Rufen Sie in der Google Cloud Console die Seite **Knowledge Catalog Lakes** auf.
Klicken Sie auf den Namen des Lakes, dem Sie eine Zone hinzufügen möchten.
Klicken Sie auf dem Tab Zonen auf Zone hinzufügen.
Geben Sie einen Anzeigenamen für Ihre Zone ein.
Klicken Sie auf das Menü Typ. Wählen Sie Rohdatenzone oder Ausgewählte Zone aus. Weitere Informationen zu unterstützten Zonentypen erfahren Sie hier.
Optional: Geben Sie eine Beschreibung ein.
Wählen Sie unter Speicherorte für Daten entweder Regional oder Multiregional aus. Ihre Auswahl kann später nicht mehr geändert werden. Daten aus einer einzelnen Region und aus mehreren Regionen können nicht in derselben Zone gemischt werden.
Optional: Aktivieren Sie die Metadatenerkennung, damit Knowledge Catalog Metadaten automatisch aus den Daten in Ihrer Zone scannen und extrahieren kann:
Klicken Sie auf Discovery-Einstellungen.
Achten Sie darauf, dass Metadatenerkennung aktivieren ausgewählt ist.
Optional: Geben Sie unter Einschlussmuster die Dateien an, die in die Erkennungsscans einbezogen werden sollen.
Optional: Geben Sie unter Ausschlussmuster die Dateien an, die aus den Erkennungsscans ausgeschlossen werden sollen. Wenn Sie sowohl Einschluss- als auch Ausschlussmuster eingeben, werden Ausschlussmuster zuerst angewendet.
Klicken Sie auf das Menü Wiederholungen und wählen Sie eine Häufigkeit aus. Wenn Sie Benutzerdefiniert auswählen, geben Sie im Feld Zeitplan einen Jobzeitplan ein. Andernfalls wird der Wert für Zeitplan automatisch für Sie ausgefüllt.
Klicken Sie auf das Menü Zeitzone und wählen Sie eine Zeitzone aus.
Klicken Sie auf Erstellen.
REST
Verwenden Sie die lakes.zones.create Methode, um eine Zone hinzuzufügen.
Es kann einige Minuten dauern, bis die Zone erstellt ist.
Wenn die Zonerstellung erfolgreich ist, wechselt die Zone automatisch in den aktiven Status. Wenn sie fehlschlägt, wird der Lake auf seinen vorherigen Zustand zurückgesetzt.
Nachdem Sie Ihre Zone erstellt haben, können Sie in Cloud Storage-Buckets und BigQuery-Datasets gespeicherte Daten als Assets Ihrer Zone zuordnen. Weitere Informationen finden Sie unter Asset hinzufügen.
Nächste Schritte
- Erfahren Sie, wie Sie Buckets verwalten.
- Lake erstellen
- Weitere Informationen zu Cloud-Audit-Logs.