Unternehmensglossare aus einer Google-Tabelle importieren

In diesem Dokument wird erläutert, wie Sie mit dem Dienstprogramm für den Glossarimport Glossare, Kategorien und Begriffe aus einer Google-Tabelle in Knowledge Catalog (ehemals Dataplex Universal Catalog) importieren.

Das glossary_import Dienstprogramm parst und validiert Daten aus einer Google-Tabelle, konvertiert sie in ein Format, das mit der Knowledge Catalog CreateMetadataJob API kompatibel ist, und lädt sie in einen Cloud Storage-Bucket hoch, bevor der Importjob ausgelöst wird.

Hinweis

Bevor Sie Glossare importieren, müssen Sie die folgenden Voraussetzungen erfüllen.

Dienstkonto einrichten

Wenn Sie das Importdienstprogramm mit einer Google-Tabelle ausführen möchten, müssen Sie ein Dienstkonto mit den erforderlichen Berechtigungen für den Zugriff auf die Google Sheets API einrichten und die Identität Ihres Nutzers übernehmen:

  1. Dienstkonto identifizieren oder erstellen

    Wählen Sie ein vorhandenes Dienstkonto aus oder erstellen Sie ein neues im Projekt, in dem Sie das Importdienstprogramm ausführen. Weitere Informationen finden Sie unter Dienstkonten erstellen. Notieren Sie sich die E-Mail-Adresse des Dienstkontos (z. B. SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Identitätsübernahme des Dienstkontos konfigurieren

    Wenn Sie das Skript des Importdienstprogramms lokal ausführen möchten, muss Ihr Nutzerkonto die Berechtigung haben, die Identität des Dienstkontos zu übernehmen. Weisen Sie Ihrem Nutzerkonto die Rolle Ersteller von Dienstkonto-Tokens (roles/iam.serviceAccountTokenCreator) für das Dienstkonto zu.

    Weitere Informationen finden Sie unter Zugriff auf Dienstkonten verwalten.

  3. Gewähren Sie dem Dienstkonto Editor Zugriff auf die Google-Tabelle.

    Öffnen Sie die Google-Tabelle, die Sie für den Import verwenden möchten, klicken Sie auf Freigeben, und fügen Sie die E-Mail-Adresse des Dienstkontos als Editor hinzu. Mit dieser Berechtigung kann das Dienstkonto Daten aus Ihrem Tabellenblatt lesen oder in Ihr Tabellenblatt schreiben.

Cloud Storage-Bucket erstellen

Erstellen Sie einen Cloud Storage-Bucket als Stagingbereich für Importdateien.

Erforderliche Rollen

Damit das Dienstkonto die erforderlichen Berechtigungen zum Importieren von Glossaren aus einer Google-Tabelle hat, bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen zu gewähren:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Ihr Administrator kann dem Dienstkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.

APIs aktivieren

Wenn Sie Glossare importieren möchten, aktivieren Sie die folgenden APIs in Ihrem Projekt:

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von Rollen.

APIs aktivieren

Git-Repository einrichten

Klonen Sie das Repository dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/import

Abhängigkeiten installieren

Installieren Sie die erforderlichen Python-Abhängigkeiten:

pip3 install -r requirements.txt

Wenn Probleme bei der Paketinstallation auftreten, richten Sie eine neue Python-Entwicklungsumgebung ein.

Authentifizieren und Identitätsübernahme des Dienstkontos konfigurieren

Initialisieren Sie die Google Cloud CLI und authentifizieren Sie sich mit Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC) und der Identitätsübernahme des Dienstkontos:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Ersetzen Sie SERVICE_ACCOUNT_EMAIL durch die E-Mail-Adresse des Dienstkontos. Beispiel:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Google-Tabelle für den Import erstellen und strukturieren

Damit ein Bulk-Import erfolgreich ausgeführt werden kann, müssen Sie eine neue Google-Tabelle mit einem genauen Spaltenschema erstellen, damit das Importdienstprogramm Ihre Metadatenfelder erfolgreich parsen und validieren kann. Achten Sie darauf, dass Sie dem Dienstkonto Editor-Zugriff auf die Google-Tabelle gewährt haben.

Die erste Zeile des Tabellenblatts muss die folgenden exakten, Groß-/Kleinschreibung beachtenden Schemaheader enthalten:

Feld Erforderlich oder optional Beschreibung
id Erforderlich Eine eindeutige Kennung für den Begriff oder die Kategorie im Glossar.
parent Optional Die ID der übergeordneten Kategorie. Wenn das Feld leer ist, ist das Element ein untergeordnetes Element der obersten Ebene des Glossars. Beachten Sie, dass die referenzierte übergeordnete ID im Tabellenblatt vorhanden sein muss und zu einer Kategorie gehören muss.
display_name Erforderlich Der Anzeigename des Begriffs oder der Kategorie.
description Optional Eine kurze Beschreibung des Begriffs oder der Kategorie.
overview Optional Eine Rich-Text-Beschreibung des Begriffs oder der Kategorie (unterstützt HTML-Tags).
type Erforderlich Der Zeilentyp. Gültige Werte sind TERM oder CATEGORY.
contact1_email Optional E-Mail-Adresse des primären Datenverwalters für den Begriff oder die Kategorie.
contact1_name Optional Name des primären Datenverwalters für den Begriff oder die Kategorie.
contact2_email Optional E-Mail-Adresse des sekundären Datenverwalters für den Begriff oder die Kategorie.
contact2_name Optional Name des sekundären Datenverwalters für den Begriff oder die Kategorie.
label1_key Optional Schlüssel für das erste zugewiesene Label.
label1_value Optional Wert für das erste zugewiesene Label.
label2_key Optional Schlüssel für das zweite zugewiesene Label.
label2_value Optional Wert für das zweite zugewiesene Label.

Glossar aus der Google-Tabelle importieren

Nachdem Sie Ihre Umgebung eingerichtet und Ihre Google-Tabelle vorbereitet haben, führen Sie das Skript glossary_import.py aus:

python3 bg_import/dataplex-glossary/glossary_import.py

Das Importdienstprogramm gibt das Ergebnis der Ausführung der CreateMetadataJob API direkt im Terminal aus. Prüfen Sie, ob der Jobstatus „Erfolgreich“ lautet.

Sie können die Ausführungsprotokolle im Verzeichnis logs/ in Ihrem lokalen Ausführungspfad einsehen. Diese Protokolle helfen Ihnen, den Übertragungsprozess zu prüfen und übersprungene Einträge oder Formatierungswarnungen zu identifizieren.

Nächste Schritte