Auf dieser Seite wird erläutert, wie Sie die Datenherkunft für Ihre Looker (Google Cloud Core)-Instanz mit Knowledge Catalog verfolgen.
Datenherkunft ist der Prozess, mit dem nachverfolgt wird, wie Daten durch Ihre Systeme fließen. Durch die Integration von Looker (Google Cloud Core) in Knowledge Catalog können Sie den gesamten Weg Ihrer Daten von der Quelle in BigQuery über die semantische Looker-Ebene (LookML-Ansichten und -Explores) bis hin zur nachgelagerten Nutzung in Dashboards und Looks visualisieren.
Diese Transparenz hilft Datenanalysten und Administratoren bei der Auswirkungsanalyse. Bevor Sie beispielsweise eine Spalte in einer BigQuery-Tabelle löschen, können Sie im Herkunftsdiagramm genau sehen, welche Looker-Dashboards durch die Änderung beschädigt würden.
Hinweis
Um die Datenherkunft mit Looker (Google Cloud Core) zu verwenden, müssen die folgenden Voraussetzungen erfüllt sein:
- Looker (Google Cloud Core): Die Datenherkunft wird für alle Editionstypen von Looker (Google Cloud Core)-Instanzen unterstützt. Looker-Instanzen (Original) lassen sich nicht in Knowledge Catalog einbinden.
- Erforderliche Berechtigungen:Zum Aufrufen von Herkunftsdiagrammen benötigen Sie die folgenden IAM-Rollen:
- Looker-Schema-Betrachter (
roles/looker.schemaViewer) für das Projekt, in dem die Looker (Google Cloud Core)-Instanz gehostet wird - Dataplex-Betrachter (
roles/dataplex.viewer) oder entsprechende Berechtigungen zum Aufrufen von Knowledge Catalog-Assets - Data Lineage-Betrachter (
roles/datalineage.viewer) zum Lesen von Herkunftsdaten
- Looker-Schema-Betrachter (
Datenherkunft aktivieren
Führen Sie die folgenden Schritte aus, um die Datenherkunft zu aktivieren:
- Universelle Catalog-Integration für Looker (Google Cloud Core) aktivieren : Die Integration zwischen Ihrer Looker (Google Cloud Core)-Instanz und Knowledge Catalog ist in der Google Cloud Console standardmäßig aktiviert. Wenn die Integration deaktiviert wurde, müssen Sie sie wieder aktivieren. Eine Anleitung finden Sie unter Integration aktivieren.
- Vorschaufeature „Knowledge Catalog Lineage“ in Looker aktivieren:Das Vorschaufeature „Knowledge Catalog Lineage“ ist auf der Seite Vorschaufeatures im Bereich Admin Ihrer Looker (Google Cloud Core)-Instanz standardmäßig deaktiviert.
- Data Lineage API aktivieren: Sie müssen die Data Lineage API (
datalineage.googleapis.com) für alle Google Cloud Projekte aktivieren, in denen Ihre Looker (Google Cloud Core)-Instanz und Ihre BigQuery-Daten gehostet werden. - Lineage-Aufnahme auf Dienstebene aktivieren: Ensure dass die Integration auf Dienstebene für Lineage und Looker (Google Cloud Core) aktiviert ist. Die Lineage auf Dienstebene folgt den folgenden Standardstatus:
- Um zukünftige Auswirkungen auf die Preise zu vermeiden, ist die Lineage-Aufnahme auf Dienstebene für Looker (Google Cloud Core) standardmäßig für Projekte deaktiviert, in denen zum Zeitpunkt der Veröffentlichung der Vorschau dieses Features die Data Lineage API aktiviert war und mindestens eine Looker (Google Cloud Core)-Instanz gehostet wurde.
- Die Lineage-Aufnahme auf Dienstebene ist standardmäßig für Looker (Google Cloud Core)-Instanzen aktiviert, die nach dem Datum der Veröffentlichung der Vorschau dieses Features in Projekten mit aktivierter Data Lineage API erstellt wurden.
Informationen zum Aufrufen der Lineage-Konfiguration für ein Google Cloud Projekt finden Sie in der Dokumentation Aktuelle Konfiguration abrufen. Wenn die Integration mit Looker (Google Cloud Core) deaktiviert ist, gibt der Befehl eine ähnliche Ausgabe wie die folgende zurück:
{ "name": "projects/123456789012/locations/global/config", "ingestion": { "rules": [ { "integrationSelector": { "integration": "LOOKER_CORE" }, "lineageEnablement": { "enabled": false } } ] }, "etag": "Wb35wDxTTLd6Z+QAL+Yd4g==" }
Die Projekt-ID in der Antwort entspricht der ID in Ihrer Anfrage. Das Feld etag ist eine Prüfsumme, die vom Server generiert wird und auf dem aktuellen Wert der Konfiguration basiert.
Datenherkunft ansehen
Nachdem die Integration aktiviert und die erste Synchronisierung abgeschlossen ist (was bis zu 24 Stunden dauern kann), können Sie die Lineage in der Knowledge Catalog Console ansehen.
- Rufen Sie in der Google Cloud Console die Knowledge Catalog Seite auf.
- Klicken Sie im linken Navigationsbereich auf Suchen.
- Suchen Sie nach einer BigQuery-Tabelle oder einem Looker (Google Cloud Core)-Asset (z. B. einem Dashboard oder einem Explore).
- Sie können im Bereich Filter nach System > Looker filtern.
- Klicken Sie auf den Namen des Assets, um die Detailseite zu öffnen.
- Klicken Sie auf den Tab Lineage.
Im Herkunftsdiagramm wird das Asset als zentraler Knoten angezeigt, mit Upstream-Quellen links und Downstream-Nutzern rechts.
Herkunftsdiagramm interpretieren
Das Herkunftsdiagramm besteht aus Knoten und Links:
- Knoten stellen Daten-Assets dar. Unterstützte Looker (Google Cloud Core)-Assets:
- Looker-Dashboard
- Looker-Dashboardelement (Kachel)
- Looker-Look
- LookML-Explore
- LookML-Ansicht
- Links stellen den Datenfluss dar. Ein Link von einer BigQuery-Tabelle zu einer LookML-Ansicht gibt beispielsweise an, dass die Ansicht Daten aus dieser Tabelle auswählt.
Assetinhaber identifizieren
So finden Sie heraus, wem ein Downstream-Asset gehört, das von einer Änderung betroffen sein könnte:
- Klicken Sie im Herkunftsdiagramm auf den Knoten für das Asset (z. B. ein Looker-Dashboard).
- Rechts auf dem Bildschirm wird ein Informationsbereich geöffnet.
- Suchen Sie nach dem Bereich Aspekte , um den Inhaber (E‑Mail-Adresse) zu finden.
Lineage-Liste filtern
In der Listenansicht für die Lineage können Sie Entitäten nach Attributname oder -wert filtern. Komplexe LookML-Modelle können beispielsweise große Herkunftsdiagramme mit vielen Zwischenentitäten generieren. Wenn Sie sich auf die geschäftlichen Auswirkungen konzentrieren möchten, können Sie die Entitäten nach Typ filtern. Gehen Sie dazu so vor:
- Wechseln Sie auf dem Tab Lineage zur Listenansicht.
- Suchen Sie in der Symbolleiste nach den Filteroptionen.
- Geben Sie im Filter Entität die Werte Looker-Dashboard und Looker-Look ein, um Zwischentypen wie LookML-Ansicht und Looker-Explore herauszufiltern.
Die Entitätenliste wird aktualisiert und zeigt nur die ausgewählten Assettypen an. So lassen sich nutzerorientierte Inhalte leichter identifizieren.
Beschränkungen
Die Lineage-Integration für Looker (Google Cloud Core) unterliegt während der Vorschau den folgenden Einschränkungen:
- Datenquellen:In der Vorschau wird die Lineage nur für BigQuery -Datenquellen unterstützt.
- Granularität:Die Lineage wird auf Objektebene bereitgestellt (Tabelle, Ansicht, Explore, Dashboard). Die Lineage auf Spaltenebene wird nicht unterstützt.
- Latenz:Lineage-Daten sind keine Echtzeitdaten. Die Synchronisierung dauert in der Regel vier Stunden. Je nach Zeitpunkt der Looker-Metadatenexporte und der Nutzung von Lineage-Daten kann die Synchronisierung jedoch bis zu acht Stunden dauern. Es kann einige Zeit dauern, bis Änderungen in Looker oder BigQuery im Herkunftsdiagramm angezeigt werden.
- Komplexes SQL:LookML, das mit komplexem benutzerdefinierten SQL definiert ist (z. B. Liquid-Vorlagen, abgeleitete Tabellen mit komplexen Joins), wird möglicherweise nicht vollständig geparst, was zu nicht verbundenen Knoten führen kann.
Preise
Während der Vorschau fallen für Lineage-Features, die mit dieser Integration verwendet werden, keine Gebühren an.
Wenn die Datenherkunft allgemein verfügbar ist, fallen Gebühren an. Um zukünftige Auswirkungen auf die Preise zu vermeiden, ist die Lineage-Aufnahme für Looker (Google Cloud Core) standardmäßig für Projekte deaktiviert, in denen zum Zeitpunkt der Veröffentlichung der Vorschau dieses Features die Data Lineage API aktiviert war und mindestens eine Looker (Google Cloud Core)-Instanz gehostet wurde.
Weitere Informationen finden Sie auf der Preisseite für Knowledge Catalog.