In diesem Dokument finden Sie eine Anleitung zur Migration von der Preview-Version des Geschäftsglossars, die Data Catalog-Metadaten unterstützt, zur allgemein verfügbaren Version des Geschäftsglossars, die Dataplex Universal Catalog-Metadaten unterstützt. Der Übergangsprozess umfasst das Exportieren von Glossaren, Kategorien, Begriffen und Links aus Data Catalog und das anschließende Importieren in Dataplex Universal Catalog.
So stellen Sie manuell auf das Geschäftsglossar in Dataplex Universal Catalog um:
- Glossare und Eintragslinks aus Data Catalog exportieren
- Glossare, Kategorien und Begriffe in Dataplex Universal Catalog importieren
- Importieren Sie Links zwischen Begriffen in Dataplex Universal Catalog.
- Importieren Sie Links zwischen Begriffen und Spalten in Dataplex Universal Catalog.
Hinweise
Wenn Sie den Export aus Glossaren in Data Catalog aktivieren möchten, registrieren Sie sich über dieses Formular.
Installieren Sie gcloud oder Python-Pakete.
Erforderliche Rollen
Um ein Glossar aus Data Catalog zu exportieren, benötigen Sie die Rolle roles/datacatalog.glossaryOwner für die Projekte, in denen das Glossar vorhanden ist. Erforderliche Berechtigungen für diese Rolle
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Dataplex Administrator (roles/dataplex.admin) für die Projekte zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Importieren des Geschäftsglossars in Dataplex Universal Catalog benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierte Rolle enthält die Berechtigungen, die zum Importieren eines Geschäftsglossars in Dataplex Universal Catalog erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um ein Geschäftsglossar in Dataplex Universal Catalog zu importieren:
-
dataplex.glossaries.importfür die Glossarressource -
dataplex.entryGroups.importfür die Dataplex Universal Catalog-Eintragsgruppe, die im Feldentry_groupsangegeben ist, und für die Eintragsgruppen, in denen die Data Catalog-Einträge vorhanden sind, die mit den Glossarbegriffen verknüpft sind -
dataplex.entryGroups.useSynonymEntryLinkfür die Dataplex Universal Catalog-Eintragsgruppe, die im Feldentry_groupsangegeben ist, und für die Eintragsgruppen, in denen die Data Catalog-Einträge vorhanden sind, die mit den Glossarbegriffen verknüpft sind -
dataplex.entryGroups.useRelatedEntryLinkfür die Dataplex Universal Catalog-Eintragsgruppe, die im Feldentry_groupsangegeben ist, und für die Eintragsgruppen, in denen die Data Catalog-Einträge vorhanden sind, die mit den Glossarbegriffen verknüpft sind -
dataplex.entryLinks.referencefür alle Projekte im Feldreferenced_entry_scopes
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Glossare, Kategorien und Begriffe aus dem Data Catalog exportieren
Sie können jeweils nur ein Glossar exportieren.
Klonen Sie das Repository dataplex-labs und wechseln Sie dann in das Unterverzeichnis
business-glossary-import:git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs cd dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-importSo rufen Sie Ihr Zugriffstoken ab:
export GCLOUD_ACCESS_TOKEN=$(gcloud auth print-access-token)Führen Sie das Exportskript aus:
python3 bg_import/business_glossary_export_v2.py \ --user-project="PROJECT_ID" \ --url="DATA_CATALOG_GLOSSARY_URL"
Ersetzen Sie Folgendes:
PROJECT_ID: die ID des Projekts, das das Glossar enthält.DATA_CATALOG_GLOSSARY_URL: die URL des Data Catalog-Unternehmensglossars in der Google Cloud -Konsole.
Das Skript erstellt eine JSON-Datei, die dasselbe Format wie die Metadaten-Importdatei hat, die für Metadaten-Importjobs verwendet wird. Die Namen des Glossars, der Kategorien und der Begriffe haben die folgenden Formate:
- Glossar:
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/@dataplex/entries/projects/{PROJECT_ID{"</var>"}}/locations/LOCATION_ID/glossaries/GLOSSARY_ID - Laufzeit:
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/@dataplex/entries/projects/PROJECT_ID/locations/LOCATION_ID/glossaries/GLOSSARY_ID/terms/TERM_ID - Kategorie:
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/@dataplex/entries/projects/PROJECT_ID/locations/LOCATION_ID/glossaries/GLOSSARY_ID/categories/CATEGORY_ID
Die Werte für
GLOSSARY_ID,CATEGORY_ID,TERM_ID,PROJECT_IDundLOCATION_IDentsprechen den Werten aus dem Data Catalog-Glossar.
Ergebnisse
In der folgenden Liste werden einige Aspekte beschrieben, die bei der Interpretation der Ergebnisse zu beachten sind:
Die Glossare sowie ihre Kategorien und Begriffe werden an einem globalen Ort exportiert, sodass die Begriffe mit einem Eintrag in einer beliebigen Region verknüpft werden können.
Die exportierten Dateien befinden sich im Ordner
Exported_Filesindataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import. Der Name der Datei lautetglossary_GLOSSARY_ID.json.Mit dem Exportbefehl wird das Glossar automatisch in Dataplex Universal Catalog mit derselben GLOSSARY_ID und
PROJECT_IDam globalen Standort erstellt.Das Skript erstellt eine JSON-Datei, die die Synonyme und zugehörigen Links zwischen Begriffen enthält. Die exportierten Dateien befinden sich im Ordner „Exported_Files“ in
dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import. Der Name der Datei lautetentrylinks_related_synonym_GLOSSARY_ID.json.Die exportierten Links befinden sich im Ordner
Exported_Filesindataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import.Die Begriffe in einem Glossar können mit vielen Einträgen in vielen Eintragssammlungen verknüpft sein. Beim Exportieren von Links zwischen Begriffen und Spalten wird für jede
entryGroupeine Datei erstellt. Der Dateiname hat folgendes Format:entrylinks_definition_export_GLOSSARY_ID_ENTRY_PROJECT_ID_ENTRY_LOCATION_ID_ENTRY_GROUP_ID.json.Die Glossar-ID, die Sie zum Importieren von Glossaren, Kategorien und Begriffen benötigen, wird nach dem Ausführen des Exportscripts angezeigt.
Glossare, Kategorien und Begriffe importieren
Sie müssen die im vorherigen Schritt exportierten Dataplex Universal Catalog-Glossare, ‑Kategorien und ‑Begriffe importieren. In diesem Abschnitt wird beschrieben, wie Sie Daten mit der Metadata Job API importieren.
Erstellen Sie einen Cloud Storage-Bucket und laden Sie die Datei in den Bucket hoch.
Führen Sie einen Metadatenimportjob aus, um das Glossar zu importieren.
# Set GCURL alias alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
# Import CURL Command gcurl "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/global/metadataJobs\?metadata_job_id=JOB_ID" -X POST -H "Content-Type: application/json" -d "$(cat<<EOF { "type":"IMPORT", "import_spec":{ "log_level": "DEBUG", "source_storage_uri": "gs://STORAGE_BUCKET/", "entry_sync_mode": "FULL", "aspect_sync_mode": "INCREMENTAL", "scope": { "glossaries": ["projects/PROJECT_ID/locations/global/glossaries/GLOSSARY_ID"] } } } EOF )"
Ersetzen Sie Folgendes:
JOB_ID: (optional) eine ID für den Metadatenimportjob, mit der Sie den Status des Jobs verfolgen können. Wenn Sie keine ID angeben, wird mit dem gcurl-Befehl eine eindeutige ID generiert.STORAGE_BUCKET: Der URI des Cloud Storage-Buckets oder -Ordners, der die exportierte Glossardatei enthält.PROJECT_ID: die Projektnummer, die das Glossar enthält.
Optional: Mit der Methode
metadataJobs.getkönnen Sie den Status des Jobs zum Importieren von Metadaten verfolgen:gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/global/metadataJobs/JOB_ID
Wenn beim Importjob für Metadaten Fehler auftreten, werden sie in den Logs angezeigt.
Links zwischen Begriffen in Dataplex Universal Catalog importieren
Sie müssen Links zwischen Begriffen importieren, die im vorherigen Schritt exportiert wurden. In diesem Abschnitt wird beschrieben, wie Sie Daten mit der Metadata Job API importieren.
Erstellen Sie einen neuen Cloud Storage-Bucket und laden Sie dann die exportierte Datei mit den Eintragslinks aus dem vorherigen Schritt in den Bucket hoch.
Führen Sie einen Metadatenimportjob aus, um die Eintragslinks zu importieren:
# Import CURL Command gcurl "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/global/metadataJobs?metadata_job_id=JOB_ID" -X POST -H "Content-Type: application/json" -d "$(cat<<EOF { "type": "IMPORT", "import_spec": { "log_level": "DEBUG", "source_storage_uri": "gs://STORAGE_BUCKET/", "entry_sync_mode": "FULL", "aspect_sync_mode": "INCREMENTAL", "scope": { "entry_groups": ["projects/GLOSSARY_PROJECT_ID/locations/global/entryGroups/@dataplex"], "entry_link_types": [ "projects/dataplex-types/locations/global/entryLinkTypes/synonym", "projects/dataplex-types/locations/global/entryLinkTypes/related" ], "referenced_entry_scopes": ["projects/GLOSSARY_PROJECT_ID","projects/LINKED_GLOSSARY_PROJECT_ID_1","projects/LINKED_GLOSSARY_PROJECT_ID_2"] } } } EOF )"
Ersetzen Sie Folgendes:
GLOSSARY_PROJECT_ID: die ID des Projekts, das das Glossar enthält- Optional:
LINKED_GLOSSARY_PROJECT_ID_1: Wenn Begriffe in Glossaren in verschiedenen Projekten verknüpft sind, geben Sie die ID des Projekts an. - Optional:
LINKED_GLOSSARY_PROJECT_ID_2: Wenn Begriffe in Glossaren in verschiedenen Projekten verknüpft sind, geben Sie die ID des Projekts an.
Wichtige Hinweise:
- Das
entry_groups-Objekt enthält die Eintragsgruppe, in der die Eintragslinks erstellt werden. Dies ist die@dataplex-Systemeintragsgruppe im selben Projekt und am selben Standort wie das Glossar. Mit dem
entry_link_types-Objekt können Sie Synonyme, verwandte Begriffe oder beides importieren:- Synonyme:
projects/dataplex-types/locations/global/entryLinkTypes/synonym - Verwandte Begriffe:
projects/dataplex-types/locations/global/entryLinkTypes/related
- Synonyme:
Das
referenced_entry_scopes-Objekt enthält die Projekt-IDs von Entry-Links, die Begriffe aus verschiedenen Glossaren verknüpfen.
Links zwischen Begriffen und Spalten importieren
Sie müssen die Links zwischen Begriffen und Spalten importieren, die im vorherigen Schritt exportiert wurden. In diesem Abschnitt wird beschrieben, wie Sie Daten mit der Metadata Job API importieren.
Laden Sie jede im vorherigen Schritt exportierte Datei in einen Cloud Storage-Bucket hoch.
Führen Sie für jede Datei, die in den Cloud Storage-Bucket hochgeladen wurde, einen separaten Importbefehl aus. Jede Datei entspricht einer eindeutigen Eintragsgruppe, die Links zwischen Begriffen und Spalten dieser Eintragsgruppe enthält.
gcurl "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/ENTRY_GROUP_LOCATION_ID/metadataJobs?metadata_job_id=JOB_ID" -X POST -H "Content-Type: application/json" -d "$(cat<<EOF { "type": "IMPORT", "import_spec": { "log_level": "DEBUG", "source_storage_uri": "gs://STORAGE_BUCKET/", "entry_sync_mode": "FULL", "aspect_sync_mode": "INCREMENTAL", "scope": { "entry_groups": ["projects/ENTRY_GROUP_PROJECT_ID/locations/ENTRY_GROUP_LOCATION_ID/entryGroups/ENTRY_GROUP_ID"], "entry_link_types": ["projects/dataplex-types/locations/global/entryLinkTypes/definition"], "referenced_entry_scopes": ["projects/ENTRY_GROUP_PROJECT_ID", "projects/GLOSSARY_PROJECT_ID"] } } } EOF )"