In diesem Dokument wird beschrieben, wie Sie Dataproc Metastore-Metadaten mit Data Catalog synchronisieren.
Nachdem Sie diese beiden Dienste synchronisiert haben, können Sie Data Catalog verwenden, um Ihre Dataproc Metastore-Metadaten zu verwalten. Mit Data Catalog können Sie beispielsweise bestimmte Dataproc Metastore-Ressourcen wie Datenbanken und Tabellen taggen und durchsuchen.
Was ist Data Catalog?
Data Catalog ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung. Er bietet einheitliche Ansichts- und Tagging-Mechanismen für technische und geschäftliche Metadaten.
Weitere Informationen finden Sie in den folgenden Data Catalog-Featureleitfäden:
Hinweis
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Synchronisierte Dataproc Metastore-Einträge in Data Catalog ansehen (roles/metastore.metadataViewer) für Ihr Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog benötigen. Dabei gilt das Prinzip der geringsten Berechtigung.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierte Rolle enthält die Berechtigungen, die zum Synchronisieren von Dataproc Metastore-Metadaten mit Data Catalog erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen , um die notwendigen Berechtigungen anzuzeigen, die erforderlich sind:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Dataproc Metastore-Metadaten mit Data Catalog zu synchronisieren:
-
Dataproc Metastore-Datenbanken abrufen:
metastore.databases.get -
Dataproc Metastore-Datenbanken auflisten:
metastore.databases.list -
Dataproc Metastore-Tabellen abrufen:
metastore.tables.get -
Dataproc Metastore-Tabellen auflisten:
metastore.tables.list
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Weitere Informationen zu bestimmten Dataproc Metastore-Rollen und ‑Berechtigungen finden Sie unter Zugriff mit IAM verwalten.Funktionsweise von Berechtigungen zwischen den Diensten
Data Catalog richtet sich nach den Berechtigungen auf Dataproc Metastore-Ebene. Für Metadaten, die von Dataproc Metastore mit Data Catalog synchronisiert werden, gelten die in Dataproc Metastore angegebenen IAM-Berechtigungen auch für die Metadaten in Data Catalog.
Data Catalog prüft die Berechtigungen für jede Metastore-Datenbank und ‑Tabelle zum Zeitpunkt des Zugriffs, sodass nur Nutzer mit Zugriff auf den Dataproc Metastore-Dienst die synchronisierten Dienstressourcen als Einträge in Data Catalog sehen können.
Funktionsweise der Data Catalog-Synchronisierung mit Dataproc Metastore
Sie können die Synchronisierung von Dataproc Metastore mit Data Catalog aktivieren, wenn Sie einen Dataproc Metastore-Dienst mit der Google Cloud console erstellen oder aktualisieren. Sie können die Synchronisierung auf die gleiche Weise deaktivieren.
Nachdem Sie die Data Catalog-Synchronisierung aktiviert haben, werden Datenbank- und Tabellenmetadaten automatisch von Dataproc Metastore mit Data Catalog synchronisiert.
Data Catalog synchronisiert die folgenden Metadaten:
- Instanzen.
- Datenbanken, einschließlich Name und Beschreibung.
- Tabellen, einschließlich Name, Beschreibung und Schema (Spalten mit Beschreibungen).
In der folgenden Tabelle ist die Ressourcenzuordnung zwischen Dataproc Metastore und Data Catalog dargestellt:
| Dataproc Metastore-Ressource | Data Catalog-Ressource |
|---|---|
| Instanz | Eintragsgruppe Eintrag |
| Datenbank | Entry |
| Tabelle | Entry |
| Spalte | Schema |
Hinweise
Es kann bis zu sechs Stunden dauern, bis Ihre Dataproc Metastore-Metadaten vollständig mit Data Catalog synchronisiert sind. Nach der ersten Synchronisierung werden inkrementelle Änderungen bei Bedarf synchronisiert (z. B. Tabellen- oder Datenbankaktualisierungen). Wenn eine Synchronisierung auf Anfrage fehlschlägt, wird sie in eine Batch-Wiederholung aufgenommen, die alle sechs Stunden erfolgt.
Wenn Sie ein Problem mit der Synchronisierung vermuten, prüfen Sie die Metadaten Veröffentlichungslogs in Dataproc Metastore Cloud Logging mit dem Filter
textPayload=~".*Publish.*". Weitere Informationen zum Zugriff auf Logs finden Sie unter Joblogs in Logging aufrufen.Wenn Sie die Data Catalog-Synchronisierung deaktivieren, werden Ihre Metadaten nicht mehr von Dataproc Metastore mit Data Catalog synchronisiert. Bereits synchronisierte Metadaten bleiben jedoch in Data Catalog erhalten.
Wenn Sie eine Dataproc Metastore-Instanz löschen, werden auch die entsprechenden Instanz-, Datenbank- und Tabelleneinträge aus Data Catalog entfernt.
Für in Data Catalog gespeicherte Dataproc Metastore-Metadaten gelten die Standard Google Cloud aufbewahrungsfristen.
Für das Aktivieren der Data Catalog-Synchronisierung für Dataproc Metastore fallen keine zusätzlichen Kosten an.
Dienst mit aktivierter Data Catalog-Synchronisierung erstellen
Die Data Catalog-Synchronisierung ist standardmäßig deaktiviert.
Folgen Sie der Anleitung, um die Data Catalog-Synchronisierung für einen neuen Dienst zu aktivieren.
Console
Öffnen Sie in der Google Cloud console die Seite „Dataproc Metastore“:
Klicken Sie oben auf der Seite Dataproc Metastore auf Erstellen.
Die Seite Dienste erstellen wird geöffnet.
Wählen Sie die Version von Dataproc Metastore aus, die Sie verwenden möchten.
Klicken Sie unter Metadatenintegration auf Data Catalog-Synchronisierung.
Übernehmen Sie für die übrigen Optionen der Dienstkonfiguration die angegebenen Standardeinstellungen. Oder konfigurieren Sie Ihren Dienst nach Bedarf.
Klicken Sie auf Senden.
Data Catalog-Synchronisierung für einen vorhandenen Dienst aktivieren oder deaktivieren
Folgen Sie der Anleitung, um die Data Catalog-Synchronisierung für einen vorhandenen Dienst zu aktivieren oder zu deaktivieren.
Console
Öffnen Sie in der Google Cloud console die Seite „Dataproc Metastore“:
Klicken Sie auf der Seite Dataproc Metastore auf den Dienst, den Sie aktualisieren möchten.
Die Seite Dienstdetails für diesen Dienst wird geöffnet.
Klicken Sie auf dem Tab Konfiguration auf Bearbeiten.
Die Seite Dienst bearbeiten wird geöffnet.
Aktivieren oder deaktivieren Sie unter Metadatenintegration die Option Data Catalog-Synchronisierung
Klicken Sie auf Senden.
Suche mit Data Catalog
Sie können mit Data Catalog nach synchronisierten Dataproc Metastore-Metadaten suchen.
Obwohl es keine benutzerdefinierten Suchoptionen für Dataproc Metastore gibt, gibt es mehrere Möglichkeiten, nach verschiedenen Dataproc Metastore-Ressourcen zu suchen, darunter:
- Dataproc Metastore-Instanz
- nach angezeigtem Namen
- Data Catalog-Standardfunktionen, z. B. mit Tags.
- Datenbank
- nach angezeigtem Namen
- nach Beschreibung
- nach Dataproc Metastore-Instanz
- Data Catalog-Standardfunktionen, z. B. mit Tags.
- Tabelle
- nach angezeigtem Namen
- nach Beschreibung
- nach Spaltenname
- nach Spaltenbeschreibung
- nach Datenbank
- nach Dataproc Metastore-Instanz
- Data Catalog-Standardfunktionen, z. B. mit Tags.