In diesem Dokument finden Sie eine Anleitung für die Migration in einem Schritt von der Vorabversion des Unternehmensglossars, in der Data Catalog-Metadaten unterstützt wurden, zur allgemein verfügbaren Version des Unternehmensglossars in Knowledge Catalog (ehemals Dataplex Universal Catalog). Wenn Sie zur allgemein verfügbaren Version migrieren, können Sie die erweiterten Funktionen und die tiefere Integration in Knowledge Catalog-Metadaten nutzen. Das bietet eine verbesserte Stabilität, neue Funktionen und vollständigen Produktionssupport. Bei diesem Prozess werden Ihre Glossare automatisch aktualisiert, um Knowledge Catalog-Metadaten zu unterstützen.
Hinweis
Installieren Sie gcloud oder Python-Pakete. Authentifizieren Sie Ihr Nutzerkonto und die Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC), die von den Python-Bibliotheken verwendet werden. Führen Sie die folgenden Befehle aus und folgen Sie den browserbasierten Aufforderungen:
gcloud init gcloud auth login gcloud auth application-default loginAktivieren Sie folgende APIs:
Erstellen Sie einen oder mehrere Cloud Storage-Buckets in einem Ihrer Projekte. Die Buckets werden als temporärer Speicherort für die Importdateien verwendet. Je mehr Buckets Sie angeben, desto schneller erfolgt der Import. Weisen Sie dem Dienstkonto, mit dem die Migration ausgeführt wird, die IAM-Rolle „Storage-Administrator“ zu:
service-MIGRATION_PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com
Ersetzen Sie
MIGRATION_PROJECT_IDdurch das Projekt, aus dem Sie die Glossare migrieren.Repository einrichten:
Klonen Sie das Repository:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-importInstallieren Sie die erforderlichen Pakete:
pip3 install -r requirements.txt cd migration
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Migrieren von Glossaren aus Data Catalog in Knowledge Catalog benötigen:
- Inhaber von Data Catalog-Glossar (
roles/datacatalog.glossaryOwner) für Ihr Projekt - Dataplex-Administrator (
roles/dataplex.admin) für Ihr Projekt
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Migrieren von Glossaren aus Data Catalog in Knowledge Catalog erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Glossare von Data Catalog zu Knowledge Catalog zu migrieren:
-
datacatalog.glossaries.getfür das Projekt, aus dem Sie Glossare migrieren -
datacatalog.glossaries.listfür das Projekt, aus dem Sie Glossare migrieren -
dataplex.glossaries.createfür das Projekt, in dem Glossare in Knowledge Catalog erstellt werden -
dataplex.glossaries.updatefür das Projekt, in dem Glossare in Knowledge Catalog aktualisiert werden
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Weitere Informationen zu Knowledge Catalog Identity and Access Management (IAM) finden Sie unter Zugriff mit IAM verwalten.
Migrationsskript ausführen
python3 run.py --project=PROJECT_ID --buckets=BUCKET1,BUCKET2
Ersetzen Sie Folgendes:
PROJECT_ID: die Projekt-ID des zu migrierenden Projekts. Dieses Projekt wird auch für die Abrechnung und die Kontingentzuweisung für die vom Skript generierten API-Aufrufe verwendet.BUCKET1undBUCKET2: Die Cloud Storage-Bucket-IDs, die für den Import verwendet werden sollen.Sie können einen oder mehrere Buckets angeben. Geben Sie für die Bucket-Argumente eine durch Kommas getrennte Liste mit Bucket-Namen ohne Leerzeichen an (z. B.
--buckets=bucket-one,bucket-two). Eine 1:1-Zuordnung zwischen Buckets und Glossaren ist nicht erforderlich. Das Script führt die Importjobs parallel aus, was die Migration beschleunigt.
Wenn Berechtigungsprobleme verhindern, dass das Script Ihre Organisations-IDs automatisch erkennt, verwenden Sie das Flag --orgIds, um die Organisationen anzugeben, die das Script verwenden kann, um nach Daten-Assets zu suchen, die mit Glossarbegriffen verknüpft sind.
Glossare im Migrationsprozess
Wenn Sie nur bestimmte Glossare migrieren möchten, definieren Sie ihren Umfang, indem Sie die entsprechenden URLs angeben.
python3 run.py --project=PROJECT_ID --buckets=BUCKET1,BUCKET2 --glossaries="GLOSSARY_URL1","GLOSSARY_URL2"
Ersetzen Sie GLOSSARY_URL1 (und GLOSSARY_URL2) durch die vollständigen URLs der Glossare, die Sie migrieren, wie sie in derGoogle Cloud Console angezeigt werden. Wenn Sie Glossare mit diesem Flag angeben, wird das Quellprojekt anhand der URLs bestimmt und das Flag --project wird nur für die Abrechnung verwendet.
Beispiel: https://console.cloud.google.com/datacatalog/glossaries/projects/my-project/locations/us-central1/entryGroups/my-entry-group/glossaries/my-glossary
Während der Migration kann die Anzahl der Importjobs geringer sein als die Anzahl der exportierten Glossare. Das passiert, wenn leere Glossare, für die kein Hintergrundimportjob erforderlich ist, direkt erstellt werden.
Migration bei Fehlern im Importjob fortsetzen
Wenn nach der Migration Dateien vorhanden sind, bedeutet das, dass einige Importjobs fehlgeschlagen sind. Führen Sie den folgenden Befehl aus, um die Migration fortzusetzen:
python3 run.py --project=PROJECT_ID --buckets=BUCKET1,BUCKET2 --resume-import
Wenn Fehler auftreten, führen Sie den Befehl resume noch einmal aus. Das Script verarbeitet nur Dateien, die nicht erfolgreich importiert und gelöscht wurden.
Das Skript erzwingt Abhängigkeitsprüfungen für Eintragslinks und Glossarlinks. Eine Eintragslinkdatei wird nur importiert, wenn das übergeordnete Glossar erfolgreich importiert wurde. Ebenso wird ein Link zwischen Begriffen nur importiert, wenn alle referenzierten Begriffe erfolgreich importiert wurden.
Fehlerbehebung
In diesem Abschnitt finden Sie Lösungen für häufige Fehler.
Berechtigung verweigert / 403-Fehler: Prüfen Sie, ob der Nutzer oder das Dienstkonto die Rolle „Dataplex-Bearbeiter“ für das Zielprojekt und die Rolle „Dataplex-Betrachter“ für das Quellprojekt hat.
ModuleNotFoundError: Achten Sie darauf, dass Sie Ihre virtuelle Python-Umgebung aktiviert und die erforderlichen Pakete mit
pip3 install -r requirements.txtinstalliert haben.TimeoutError / ssl.SSLError: Diese Fehler auf Netzwerkebene können durch Firewalls, Proxys oder langsame Verbindungen verursacht werden. Das Skript hat ein Zeitlimit von 5 Minuten. Bei anhaltenden Problemen müssen Sie möglicherweise Ihre lokale Netzwerkkonfiguration überprüfen.
Methode nicht gefunden (Einträge können nicht abgerufen werden): Dieser Fehler weist häufig darauf hin, dass Ihr Nutzerprojekt nicht autorisiert ist, die API aufzurufen. Dadurch können die erforderlichen Einträge nicht abgerufen werden.