In diesem Dokument wird erläutert, wie Sie mit dem Dienstprogramm für den Glossarimport Glossare, Kategorien und Begriffe aus einer Google-Tabelle in Knowledge Catalog (ehemals Dataplex Universal Catalog) importieren.
Das glossary_import Dienstprogramm parst und validiert Daten aus einer Google-Tabelle,
konvertiert sie in ein Format, das mit der Knowledge Catalog
CreateMetadataJob API kompatibel ist,
und lädt sie in einen Cloud Storage-Bucket hoch, bevor der Importjob ausgelöst wird.
Hinweis
Bevor Sie Glossare importieren, müssen Sie die folgenden Voraussetzungen erfüllen.
Dienstkonto einrichten
Wenn Sie das Importdienstprogramm mit einer Google-Tabelle ausführen möchten, müssen Sie ein Dienstkonto mit den erforderlichen Berechtigungen für den Zugriff auf die Google Sheets API einrichten und die Identität Ihres Nutzers übernehmen:
Dienstkonto identifizieren oder erstellen
Wählen Sie ein vorhandenes Dienstkonto aus oder erstellen Sie ein neues im Projekt, in dem Sie das Importdienstprogramm ausführen. Weitere Informationen finden Sie unter Dienstkonten erstellen. Notieren Sie sich die E-Mail-Adresse des Dienstkontos (z. B.
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).Identitätsübernahme des Dienstkontos konfigurieren
Wenn Sie das Skript des Importdienstprogramms lokal ausführen möchten, muss Ihr Nutzerkonto die Berechtigung haben, die Identität des Dienstkontos zu übernehmen. Weisen Sie Ihrem Nutzerkonto die Rolle Ersteller von Dienstkonto-Tokens (
roles/iam.serviceAccountTokenCreator) für das Dienstkonto zu.Weitere Informationen finden Sie unter Zugriff auf Dienstkonten verwalten.
Gewähren Sie dem Dienstkonto
EditorZugriff auf die Google-Tabelle.Öffnen Sie die Google-Tabelle, die Sie für den Import verwenden möchten, klicken Sie auf Freigeben, und fügen Sie die E-Mail-Adresse des Dienstkontos als
Editorhinzu. Mit dieser Berechtigung kann das Dienstkonto Daten aus Ihrem Tabellenblatt lesen oder in Ihr Tabellenblatt schreiben.
Cloud Storage-Bucket erstellen
Erstellen Sie einen Cloud Storage-Bucket als Stagingbereich für Importdateien.
Erforderliche Rollen
Damit das Dienstkonto die erforderlichen Berechtigungen zum Importieren von Glossaren aus einer Google-Tabelle hat, bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen zu gewähren:
- Dataplex-Administrator (
roles/dataplex.admin) für das Projekt - Dataplex Catalog Admin (
roles/dataplex.catalogAdmin) für das Projekt - Dataplex Catalog Editor (
roles/dataplex.catalogEditor) für das Projekt - Storage-Objekt-Administrator (
roles/storage.objectAdmin) für den Cloud Storage-Bucket
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Ihr Administrator kann dem Dienstkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.
APIs aktivieren
Wenn Sie Glossare importieren möchten, aktivieren Sie die folgenden APIs in Ihrem Projekt:
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“
(roles/serviceusage.serviceUsageAdmin), die
die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von
Rollen.
Git-Repository einrichten
Klonen Sie das Repository dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/import
Abhängigkeiten installieren
Installieren Sie die erforderlichen Python-Abhängigkeiten:
pip3 install -r requirements.txt
Wenn Probleme bei der Paketinstallation auftreten, richten Sie eine neue Python-Entwicklungsumgebung ein.
Authentifizieren und Identitätsübernahme des Dienstkontos konfigurieren
Initialisieren Sie die Google Cloud CLI und authentifizieren Sie sich mit Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC) und der Identitätsübernahme des Dienstkontos:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
Ersetzen Sie SERVICE_ACCOUNT_EMAIL durch die E-Mail-Adresse des Dienstkontos. Beispiel:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
Google-Tabelle für den Import erstellen und strukturieren
Damit ein Bulk-Import erfolgreich ausgeführt werden kann, müssen Sie eine neue Google-Tabelle mit einem genauen Spaltenschema erstellen, damit das Importdienstprogramm Ihre Metadatenfelder erfolgreich parsen und validieren kann. Achten Sie darauf, dass Sie dem Dienstkonto Editor-Zugriff auf die Google-Tabelle gewährt haben.
Die erste Zeile des Tabellenblatts muss die folgenden exakten, Groß-/Kleinschreibung beachtenden Schemaheader enthalten:
| Feld | Erforderlich oder optional | Beschreibung |
|---|---|---|
id |
Erforderlich | Eine eindeutige Kennung für den Begriff oder die Kategorie im Glossar. |
parent |
Optional | Die ID der übergeordneten Kategorie. Wenn das Feld leer ist, ist das Element ein untergeordnetes Element der obersten Ebene des Glossars. Beachten Sie, dass die referenzierte übergeordnete ID im Tabellenblatt vorhanden sein muss und zu einer Kategorie gehören muss. |
display_name |
Erforderlich | Der Anzeigename des Begriffs oder der Kategorie. |
description |
Optional | Eine kurze Beschreibung des Begriffs oder der Kategorie. |
overview |
Optional | Eine Rich-Text-Beschreibung des Begriffs oder der Kategorie (unterstützt HTML-Tags). |
type |
Erforderlich | Der Zeilentyp. Gültige Werte sind TERM oder CATEGORY. |
contact1_email |
Optional | E-Mail-Adresse des primären Datenverwalters für den Begriff oder die Kategorie. |
contact1_name |
Optional | Name des primären Datenverwalters für den Begriff oder die Kategorie. |
contact2_email |
Optional | E-Mail-Adresse des sekundären Datenverwalters für den Begriff oder die Kategorie. |
contact2_name |
Optional | Name des sekundären Datenverwalters für den Begriff oder die Kategorie. |
label1_key |
Optional | Schlüssel für das erste zugewiesene Label. |
label1_value |
Optional | Wert für das erste zugewiesene Label. |
label2_key |
Optional | Schlüssel für das zweite zugewiesene Label. |
label2_value |
Optional | Wert für das zweite zugewiesene Label. |
Glossar aus der Google-Tabelle importieren
Nachdem Sie Ihre Umgebung eingerichtet und Ihre Google-Tabelle vorbereitet haben, führen Sie das Skript glossary_import.py aus:
python3 bg_import/dataplex-glossary/glossary_import.py
Das Importdienstprogramm gibt das Ergebnis der Ausführung der CreateMetadataJob API direkt im Terminal aus. Prüfen Sie, ob der Jobstatus „Erfolgreich“ lautet.
Sie können die Ausführungsprotokolle im Verzeichnis logs/ in Ihrem lokalen Ausführungspfad einsehen. Diese Protokolle helfen Ihnen, den Übertragungsprozess zu prüfen und übersprungene Einträge oder Formatierungswarnungen zu identifizieren.
Nächste Schritte
- Erfahren Sie, wie Sie ein Unternehmensglossar verwalten.
- Glossare mit JSON-Dateien importieren .
- Glossare in eine Google-Tabelle exportieren .
- Weitere Informationen zur Metadatenverwaltung.