Eintragslinks in eine Google-Tabelle exportieren

In diesem Dokument wird beschrieben, wie Sie mit dem Dienstprogramm zum Exportieren von Eintragslinks Eintragslinks (Beziehungen zwischen Glossarbegriffen und Daten-Assets) aus Knowledge Catalog (früher Dataplex Universal Catalog) in ein Google-Tabellenblatt extrahieren.

Sie können Eintragslinks in eine Google-Tabelle exportieren, um vorhandene Links zu prüfen, Ihre Metadaten zu sichern oder eine Vorlage für Bulk-Updates zu erstellen.

Hinweis

Bevor Sie Eintragslinks in ein Google-Tabellenblatt exportieren, müssen Sie die folgenden Voraussetzungen erfüllen.

Dienstkonto einrichten

Damit Sie das Exporttool ausführen können, müssen Sie ein Dienstkonto mit den erforderlichen Berechtigungen für den Zugriff auf die Google Sheets API einrichten und die Identität Ihrer Nutzeranmeldedaten übernehmen:

  1. Identifizieren oder erstellen Sie ein Dienstkonto.

    Wählen Sie ein vorhandenes Dienstkonto aus oder erstellen Sie ein neues in dem Projekt, in dem Sie das Importprogramm ausführen. Weitere Informationen finden Sie unter Dienstkonten erstellen. Notieren Sie sich die E-Mail-Adresse des Dienstkontos (z. B. SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. Identitätsübernahme des Dienstkontos konfigurieren.

    Damit Sie das Exportdienstprogramm-Script lokal ausführen können, muss Ihr Nutzerkonto die Berechtigung haben, die Identität des Dienstkontos zu übernehmen. Weisen Sie Ihrem Nutzerkonto die Rolle Ersteller von Dienstkonto-Tokens (roles/iam.serviceAccountTokenCreator) für das Dienstkonto zu.

    Weitere Informationen finden Sie unter Zugriff auf Dienstkonten verwalten.

  3. Gewähren Sie dem Dienstkonto Editor Zugriff auf das Google-Tabellenblatt.

    Öffnen Sie die Google-Tabelle, die Sie für den Import verwenden möchten, klicken Sie auf Freigeben und fügen Sie die E-Mail-Adresse des Dienstkontos als Editor hinzu. Mit dieser Berechtigung kann das Dienstkonto Daten aus Ihrem Tabellenblatt lesen oder Daten in Ihr Tabellenblatt schreiben.

Erforderliche Rollen

Damit das Dienstkonto die erforderlichen Berechtigungen zum Exportieren von Eintragslinks in ein Google-Tabellenblatt hat, bitten Sie Ihren Administrator, dem Dienstkonto die folgenden IAM-Rollen zu gewähren:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Ihr Administrator kann dem Dienstkonto möglicherweise auch die erforderlichen Berechtigungen über benutzerdefinierte Rollen oder andere vordefinierte Rollen erteilen.

APIs aktivieren

Wenn Sie Eintragslinks exportieren möchten, aktivieren Sie die folgenden APIs in Ihrem Projekt:

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

Git-Repository einrichten

Klonen Sie das Repository dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

Abhängigkeiten installieren

Installieren Sie die erforderlichen Python-Abhängigkeiten:

pip3 install -r requirements.txt
cd dataplex-glossary

Wenn bei der Installation des Pakets Probleme auftreten, richten Sie eine neue Python-Entwicklungsumgebung ein.

Identitätsübernahme des Dienstkontos authentifizieren und konfigurieren

Initialisieren Sie die Google Cloud CLI und authentifizieren Sie sich mit Standardanmeldedaten für Anwendungen (ADC) und der Identitätsübernahme des Dienstkontos:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud init
gcloud auth login
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

Ersetzen Sie SERVICE_ACCOUNT_EMAIL durch die E-Mail-ID des Dienstkontos. Beispiel:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

Google-Tabelle für den Export einrichten

Erstellen Sie eine leere Google-Tabelle oder verwenden Sie eine vorhandene. Das Exportskript schreibt in das erste Tabellenblatt. Achten Sie darauf, dass Sie dem Dienstkonto Editor-Zugriff auf die Google-Tabelle gewährt haben.

Umgebungsvariablen einrichten

Richten Sie die folgenden Umgebungsvariablen ein:

# Set your glossary URL
export GLOSSARY_URL="GLOSSARY_URL"

# Set your Google Sheet URL
export SPREADSHEET_URL="GOOGLE_SHEET_URL"

# Set the project ID
export USER_PROJECT="USER_PROJECT"

Eintragslinks in die Google-Tabelle exportieren

Führen Sie das folgende Script aus, um die Links zu Einträgen in einem Glossar in die Google-Tabelle zu exportieren:

cd export
python3 entrylinks-export.py \
  --glossary-url="$GLOSSARY_URL" \
  --spreadsheet-url="$SPREADSHEET_URL" \
  --user-project="$USER_PROJECT"

Sie können die Ausführungslogs im Verzeichnis logs/ in Ihrem lokalen Ausführungspfad aufrufen. Mithilfe dieser Logs können Sie den Übertragungsprozess prüfen und übersprungene Einträge oder Formatierungswarnungen erkennen.

Exportierte Daten zu Eintragslinks prüfen

Das Exportskript füllt das Google-Tabellenblatt mit den folgenden Spalten:

Spaltenüberschrift Beschreibung
entry_link_type Der Typ des Eintragslinks (definition, related oder synonym).
source_entry Der vollständige Ressourcenpfad des Quelleintrags.
target_entry Der vollständige Ressourcenpfad des Zieleintrags.
source_path Spalten- oder Feldpfad für Definitionen.

Nächste Schritte