Datenherkunft mit Google Cloud-Systemen verwenden

Mit der Datenherkunft können Sie die Beziehungen zwischen den Ressourcen Ihres Projekts und den Prozessen, mit denen sie erstellt wurden, nachvollziehen. Diese Beziehungen zeigen, wie Daten-Assets wie Tabellen und Datasets durch Prozesse wie Abfragen und Pipelines transformiert werden. In dieser Anleitung wird beschrieben, wie Sie auf Lineage-Diagramme im Dataplex Universal Catalog, in BigQuery und in Vertex AI zugreifen.

Sie können Details zum Datenursprung in der Google Cloud -Console ansehen oder mit der Data Lineage API abrufen.

Rollen und Berechtigungen

Bei der Datenherkunft werden Herkunftsinformationen automatisch erfasst, wenn Sie die Data Lineage API aktivieren. Sie benötigen keine Administrator- oder Bearbeiterrollen, um den Datenursprung für Ihre Daten-Assets zu erfassen.

Zum Aufrufen des Datenursprungs benötigen Sie bestimmte IAM-Berechtigungen (Identity and Access Management). Abstammungsinformationen werden projektübergreifend erfasst. Sie benötigen also Berechtigungen für mehrere Projekte.

  • Wenn Sie die Lineage in Dataplex Universal Catalog, BigQuery oder Vertex AI ansehen, benötigen Sie Berechtigungen zum Aufrufen von Lineage-Informationen in dem Projekt, in dem Sie sie ansehen.

  • Wenn Sie die Herkunft von Daten ansehen, die in anderen Projekten aufgezeichnet wurden, benötigen Sie Berechtigungen zum Aufrufen von Herkunftsinformationen in den Projekten, in denen sie aufgezeichnet wurden.

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zuzuweisen, damit Sie die nötigen Berechtigungen zum Aufrufen der Datenherkunft haben:

  • Data Lineage-Betrachter (roles/datalineage.viewer) für das Projekt, in dem die Datenherkunft aufgezeichnet wird, und das Projekt, in dem die Datenherkunft angezeigt wird
  • BigQuery-Tabellendetails ansehen: BigQuery-Datenbetrachter (roles/bigquery.dataViewer) für das Speicherprojekt der Tabelle
  • BigQuery-Jobdetails ansehen: BigQuery Resource Viewer (roles/bigquery.resourceViewer) für das Rechenprojekt des Jobs
  • Details zu anderen katalogisierten Assets ansehen: Dataplex Catalog Viewer (roles/dataplex.catalogViewer) für das Projekt, in dem Katalogeinträge gespeichert sind

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Aufrufen des Datenursprungs erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind erforderlich, um den Datenursprung aufzurufen:

  • BigQuery-Tabellendetails ansehen: bigquery.tables.get – das Speicherprojekt der Tabelle
  • BigQuery-Jobdetails ansehen: bigquery.jobs.get – das Rechenprojekt des Jobs

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Bei der Datenherkunft werden Herkunftsinformationen automatisch erfasst, wenn Sie die Data Lineage API aktivieren. Sie benötigen keine Administrator- oder Bearbeiterrollen, um den Datenursprung für Ihre Daten-Assets zu erfassen.

Arten von Ansichten zur Datenherkunft

Sie können Informationen zur Herkunft als Diagramm oder Liste ansehen. Im Herkunftsdiagramm wird standardmäßig die Herkunft auf Tabellenebene angezeigt. Für BigQuery-Jobs können Sie die Herkunft auf Spaltenebene sowohl in der Diagramm- als auch in der Listenansicht ansehen.

Die folgenden Ansichtstypen sind verfügbar:

  • Diagrammansicht: Hier wird der Datenursprung als interaktives Diagramm dargestellt. Sie können Beziehungen zwischen Daten-Assets und Spalten untersuchen, indem Sie Knoten maximieren.

  • Listenansicht: Hier wird die Herkunft in einem tabellarischen Format angezeigt. Es gibt vereinfachte und detaillierte Darstellungen der Herkunft auf Tabellen- und Spaltenebene. Sie können Spalten anpassen und Herkunftsdaten aus dieser Ansicht exportieren.

Die wichtigsten Elemente im Diagramm werden so beschrieben:

  • Knoten: Stellen die Datenentitäten dar. In der Ansicht auf Tabellenebene wird in einem Knoten der Tabellenname und die zugehörigen Spalten angezeigt. In der Ansicht auf Spaltenebene stellt jeder Knoten eine bestimmte Tabelle und ihre Spalten mit Herkunft dar.

  • Kanten: Die Linien, die Knoten verbinden und die Prozesse darstellen, die zwischen ihnen stattfinden. Kanten können Symbole oder Labels enthalten, um weitere Informationen zur Transformation zu liefern:

    • Icons: In der Ansicht auf Tabellenebene werden Symbole an den Rändern angezeigt, um den Transformationsprozess darzustellen. Wenn Sie das Diagramm manuell untersuchen, stellen Symbole auf den Kanten das Quellsystem des Prozesses dar (z. B. BigQuery oder Vertex AI). Wenn mehrere Prozesse beteiligt sind, wird das Symbol „Mehrere Prozesse“ angezeigt. Wenn das Quellsystem des Prozesses unbekannt ist, wird ein Zahnradsymbol verwendet. Wenn Sie Filter anwenden, wird für alle Prozesse ein Zahnradsymbol verwendet.
    • Labels: In der Ansicht auf Spaltenebene werden Kanten mit Labels versehen, um den Typ der Abhängigkeit zwischen Spalten zu beschreiben, z. B. Exact copy oder Other.

Lineage-Funktion aktivieren

Aktivieren Sie die Datenherkunft, um automatisch Informationen zur Herkunft für unterstützte Systeme zu erfassen. Wenn Sie die API aktivieren, wird die Herkunftserfassung für die meisten unterstützten Dienste standardmäßig aktiviert. Informationen zum Steuern der Dataproc-Abstammungserfassung finden Sie unter Abstammungserfassung für einen Dienst steuern.

Sie müssen die Data Lineage API sowohl in dem Projekt, in dem Sie die Herkunft ansehen, als auch in den Projekten, in denen die Herkunft aufgezeichnet wird, aktivieren. Weitere Informationen finden Sie unter Projekttypen.

  1. So erfassen Sie Informationen zur Herkunft:
    1. Wählen Sie in der Google Cloud Console auf der Seite Projektauswahl das Projekt aus, in dem Sie die Herkunft aufzeichnen möchten.

      Zur Projektauswahl

    2. Aktivieren Sie die Data Lineage API.

      Data Lineage API aktivieren

    3. Wiederholen Sie die vorherigen Schritte für jedes Projekt, für das Sie den Datenursprung aufzeichnen möchten.
  2. Aktivieren Sie im Projekt, in dem Sie die Herkunft ansehen, die Data Lineage API und die Dataplex API.

    APIs aktivieren

Erfassung von Lineage für einen Dienst steuern

Nachdem Sie die Data Lineage API aktiviert haben, beginnt der Dienst mit der automatischen Lineage-Erfassung für die meisten unterstützten Dienste. Sie können dann die Aufnahme von Lineage-Informationen für bestimmte Integrationen auf Projekt-, Ordner- oder Organisationsebene selektiv aktivieren oder deaktivieren. Während der Vorschauphase wird mit dieser Funktion nur die Konfiguration der Aufnahme für Dataproc unterstützt. Wenn Sie die Erfassung von Lineage-Daten für Dataproc deaktivieren, wird sie auch für Dataproc Serverless für Apache Spark deaktiviert.

Die Konfiguration ist hierarchisch. Die spezifischste Konfiguration hat Vorrang. Eine Konfiguration auf Projektebene überschreibt beispielsweise eine Konfiguration auf Ordnerebene. Wenn keine Konfiguration festgelegt ist, wird das Standardverhalten des Dienstes verwendet. Für Dataproc ist die Standardeinstellung Aktiviert.

Es kann bis zu 24 Stunden dauern, bis Änderungen an der Konfiguration übernommen werden. In der Regel werden sie jedoch innerhalb von zwei Stunden wirksam.

Bei Dataproc und Dataproc Serverless für Apache Spark werden Herkunftsdaten nur gesendet, wenn die Herkunft auch in Dataproc aktiviert ist. Weitere Informationen finden Sie unter Dataproc Spark-Lineage und Dataproc Serverless für Apache Spark-Daten-Lineage.

Weitere Informationen zum Steuern der Lineage-Aufnahme, einschließlich der hierarchischen Anwendung der Konfiguration, finden Sie unter Lineage-Aufnahme steuern.

Vorbereitung

Wenn Sie die Aufnahme von Lineage-Daten steuern möchten, müssen Sie die Data Lineage API verwenden. Achten Sie darauf, dass Sie ein Clientprojekt für die Abrechnung und das Kontingent konfiguriert haben, da die Data Lineage API eine clientbasierte API ist.

  1. Aktivieren Sie die datalineage.googleapis.com API in Ihrem Clientprojekt. Weitere Informationen finden Sie unter Data Lineage aktivieren.

  2. Legen Sie das Kundenprojekt fest. Verwenden Sie für die folgenden Beispiele den Header X-Goog-User-Project. Weitere Informationen finden Sie unter Systemparameter.

Aktuelle Konfiguration abrufen

Verwenden Sie die Methode projects.locations.config.get, um die aktuelle Konfiguration für den Datenursprung aufzurufen. Sie können die Konfiguration für ein Projekt, einen Ordner oder eine Organisation abrufen.

Das folgende Beispiel zeigt, wie die Konfiguration für ein Projekt abgerufen wird:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X GET \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config"

Ersetzen Sie diese Werte:

  • CLIENT_PROJECT_ID: Die ID Ihres Clientprojekts, das für die Abrechnung oder Kontingente verwendet wird.
  • PROJECT_ID: Die ID des Projekts, dessen Konfiguration Sie aufrufen möchten.

Wenn Sie die Konfiguration für einen Ordner oder eine Organisation abrufen möchten, ersetzen Sie projects/PROJECT_ID durch folders/FOLDER_ID oder organizations/ORGANIZATION_ID.

Der Befehl gibt eine der folgenden Ausgaben zurück:

  • Wenn keine Konfiguration festgelegt ist, erhalten Sie eine Ausgabe mit einem leeren ingestion-Objekt:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {}
      }
      

    In diesem Fall wird für die Dataproc-Lineage-Erfassung die Standardeinstellung enabled verwendet.

  • Wenn die Dataproc-Lineage-Erfassung explizit aktiviert ist, erhalten Sie die folgende Ausgabe:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {
          "rules": [
            {
              "integrationSelector": {
                "integration": "DATAPROC"
              },
              "lineageEnablement": {
                "enabled": true
              }
            }
          ]
        },
        "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
      }
      
  • Wenn die Dataproc-Abstammungserfassung deaktiviert ist, erhalten Sie die folgende Ausgabe:
      {
        "name": "projects/123456789012/locations/global/config",
        "ingestion": {
          "rules": [
            {
              "integrationSelector": {
                "integration": "DATAPROC"
              },
              "lineageEnablement": {
                "enabled": false
              }
            }
          ]
        },
        "etag": "Wb35wDxTTLd6Z+QAL+Yd4g=="
      }
      

Das Feld etag in der Antwort ist eine Prüfsumme, die vom Server auf Grundlage des aktuellen Werts der Konfiguration generiert wird. Wenn Sie eine Konfiguration mit der Methode patch aktualisieren, können Sie den Wert etag, der von einer aktuellen get-Anfrage zurückgegeben wurde, in den Anfragetext aufnehmen. Wenn Sie etag angeben, verwendet Dataplex Universal Catalog diese, um zu prüfen, ob sich die Konfiguration seit Ihrer letzten Leseanfrage geändert hat. Wenn es eine Diskrepanz gibt, schlägt die Aktualisierungsanfrage fehl. So wird verhindert, dass Sie in Lese-/Änderungs-/Schreibvorgängen versehentlich Konfigurationen überschreiben, die von anderen Nutzern vorgenommen wurden. Wenn Sie in Ihrer patch-Anfrage keine etag angeben, wird die Konfiguration von Dataplex Universal Catalog bedingungslos überschrieben.

Erfassung von Herkunftsdaten für einen Dienst deaktivieren

Wenn Sie die Aufnahme von Lineage-Informationen für einen bestimmten Dienst deaktivieren möchten, verwenden Sie die Methode projects.locations.config.patch mit einer Aufnahmeregel, die lineageEnablement.enabled für den jeweiligen integration auf false setzt.

Um zu verhindern, dass Konfigurationen, die von anderen Nutzern in Lese-/Änderungs-/Schreibvorgängen vorgenommen wurden, unbeabsichtigt überschrieben werden, können Sie das Feld etag in den Anfragetext aufnehmen. Weitere Informationen finden Sie unter Aktuelle Konfiguration abrufen.

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X PATCH \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config" \
     --data-binary @- << EOF
{
  "ingestion": {
    "rules": [{
      "integrationSelector": {
        "integration": "DATAPROC"
      },
      "lineageEnablement": {
        "enabled": false
      }
    }]
  },
  "etag": "ETAG"
}
EOF

Ersetzen Sie Folgendes:

  • CLIENT_PROJECT_ID: Die ID Ihres Clientprojekts, das für die Abrechnung oder Kontingente verwendet wird.
  • PROJECT_ID: Die ID des Projekts, dessen Konfiguration Sie aktualisieren möchten.
  • ETAG: Der etag-Wert, der von einer aktuellen get-Anfrage zurückgegeben wurde.

Wenn Sie die Aufnahme von Lineage-Informationen für einen Dienst für einen Ordner oder eine Organisation deaktivieren möchten, ersetzen Sie projects/PROJECT_ID durch folders/FOLDER_ID oder organizations/ORGANIZATION_ID.

Erfassung von Herkunftsdaten für einen Dienst aktivieren

Wenn Sie die Aufnahme von Lineage-Informationen für einen bestimmten Dienst aktivieren möchten, verwenden Sie die Methode projects.locations.config.patch mit einer Aufnahmeregel, die lineageEnablement.enabled für den jeweiligen integration auf true festlegt.

Um zu verhindern, dass Konfigurationen, die von anderen Nutzern in Lese-/Änderungs-/Schreibvorgängen vorgenommen wurden, unbeabsichtigt überschrieben werden, können Sie das Feld etag in den Anfragetext aufnehmen. Weitere Informationen finden Sie unter Aktuelle Konfiguration abrufen.

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json" \
     -H "X-Goog-User-Project: CLIENT_PROJECT_ID" \
     -X PATCH \
     "https://datalineage.googleapis.com/v1/projects/PROJECT_ID/locations/global/config" \
     --data-binary @- << EOF
{
  "ingestion": {
    "rules": [{
      "integrationSelector": {
        "integration": "DATAPROC"
      },
      "lineageEnablement": {
        "enabled": true
      }
    }]
  },
  "etag": "ETAG"
}
EOF

Ersetzen Sie Folgendes:

  • CLIENT_PROJECT_ID: Die ID Ihres Clientprojekts, das für die Abrechnung oder Kontingente verwendet wird.
  • PROJECT_ID: Die ID des Projekts, dessen Konfiguration Sie aktualisieren möchten.
  • ETAG: Der etag-Wert, der von einer aktuellen get-Anfrage zurückgegeben wurde.

Wenn Sie die Aufnahme von Lineage-Informationen für einen Dienst für einen Ordner oder eine Organisation aktivieren möchten, ersetzen Sie projects/PROJECT_ID durch folders/FOLDER_ID oder organizations/ORGANIZATION_ID.

Lineage in Dataplex Universal Catalog ansehen

Sie können Informationen zur Datenherkunft in der Weboberfläche von Dataplex Universal Catalog ansehen.

So rufen Sie die Herkunft auf:

  1. Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Suche auf.

    Zur Suche

  2. Wählen Sie Dataplex Universal Catalog als Suchmodus aus.

  3. Suchen Sie nach dem Eintrag, den Sie aufrufen möchten, und klicken Sie darauf. Weitere Informationen finden Sie unter Nach Ressourcen in Dataplex Universal Catalog suchen.

  4. Klicken Sie auf den Tab Lineage.

    Die Standardansicht Diagramm wird geöffnet. Sie zeigt die Datenherkunft auf Tabellenebene über Systeme und Regionen hinweg. Weitere Informationen finden Sie unter Ansicht „Abstammungsdiagramm“.

  5. Wenn Sie den Lineage-Graphen manuell untersuchen möchten, klicken Sie neben einem Knoten auf Maximieren, um jeweils fünf weitere Knoten zu laden.

    Weitere Informationen finden Sie unter Abstammungsdiagramm manuell untersuchen.

  6. Klicken Sie in der Ansicht Graph auf einen Knoten.

    Der Bereich Details wird mit Informationen zum Asset geöffnet, z. B. mit dem vollständig qualifizierten Namen und dem Typ. Weitere Informationen finden Sie unter Knotendetails.

  7. Klicken Sie in der Ansicht Graph auf eine Kante mit einem Prozesssymbol.

    Der Bereich Abfrage wird geöffnet. Weitere Informationen finden Sie unter Transformationslogik prüfen und Ausführungsprotokoll und -verlauf.

    • Klicken Sie auf den Tab Details, um die Transformationslogik zu prüfen.

    • Klicken Sie auf den Tab Ausführungen, um den Audit- und Ausführungsverlauf aufzurufen.

  8. Wählen Sie im Bereich Lineage Explorer Filterkriterien aus, z. B. Richtung, Abhängigkeitstyp oder Zeitraum, und klicken Sie dann auf Anwenden.

    Dadurch wird eine fokussierte Ansicht in einer bestimmten Region geöffnet (Vorschau). In dieser Ansicht wird das Diagramm automatisch auf bis zu drei Knotenebenen erweitert. Weitere Informationen finden Sie unter Filter anwenden, um eine fokussierte Lineage-Ansicht zu erhalten.

  9. Wählen Sie in der fokussierten Diagramm-Ansicht einen Knoten aus und klicken Sie dann im Detailbereich des Knotens auf Pfad visualisieren, um den Lineage-Pfad vom ausgewählten Knoten zurück zum Stammknoten zu visualisieren (nur in der fokussierten Ansicht).

    Weitere Informationen finden Sie unter Visualisierung des Lineage-Pfads.

  10. Führen Sie einen der folgenden Schritte aus, um die Herkunft auf Spaltenebene (nur für BigQuery-Jobs) aufzurufen:

    • Klicken Sie in einer fokussierten Graph-Ansicht in einer Tabelle auf das Spaltensymbol.
      Symbol zum Wechseln zur Herkunft auf Spaltenebene.
      Spaltensymbol
    • Filtern Sie im Bereich Lineage Explorer nach Spaltenname und klicken Sie auf Übernehmen.

    Weitere Informationen finden Sie unter Herkunft auf Spaltenebene.

  11. Klicken Sie auf  Zurücksetzen.

    Dadurch werden alle angewendeten Filter entfernt und Sie gelangen zum Anfang der Diagrammansicht.

  12. Klicken Sie auf Liste, um zur Listenansicht zu wechseln.

    Die Listenansicht bietet vereinfachte und detaillierte tabellarische Darstellungen der Herkunft sowohl auf Tabellen- als auch auf Spaltenebene, die mit der Diagrammansicht synchronisiert werden. Standardmäßig wird die vereinfachte Listenansicht angezeigt. Sie können zur detaillierten Listenansicht wechseln, um einzelne Quell-Ziel-Beziehungen zu analysieren. Sie können konfigurieren, welche Spalten angezeigt werden, und Lineage-Daten exportieren. Weitere Informationen finden Sie unter Lineage-Listenansicht.

Herkunft in BigQuery ansehen

Sie können Informationen zum Datenursprung in der BigQuery-Webbenutzeroberfläche aufrufen.

So rufen Sie die Herkunft auf:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    Zur Seite „BigQuery“

  2. Öffnen Sie die Tabelle, für die Sie die Datenherkunft aufrufen möchten.

  3. Klicken Sie auf den Tab Lineage.

    Die Standardansicht Diagramm wird geöffnet. Sie zeigt die Datenherkunft auf Tabellenebene über Systeme und Regionen hinweg. Weitere Informationen finden Sie unter Ansicht „Abstammungsdiagramm“.

  4. Wenn Sie den Lineage-Graphen manuell untersuchen möchten, klicken Sie neben einem Knoten auf Maximieren, um jeweils fünf weitere Knoten zu laden.

    Weitere Informationen finden Sie unter Abstammungsdiagramm manuell untersuchen.

  5. Klicken Sie in der Ansicht Graph auf einen Knoten.

    Der Bereich Details wird mit Informationen zum Asset geöffnet, z. B. mit dem vollständig qualifizierten Namen und dem Typ. Weitere Informationen finden Sie unter Knotendetails.

  6. Klicken Sie in der Ansicht Graph auf eine Kante mit einem Prozesssymbol.

    Der Bereich Abfrage wird geöffnet. Weitere Informationen finden Sie unter Transformationslogik prüfen und Ausführungsprotokoll und -verlauf.

    • Klicken Sie auf den Tab Details, um die Transformationslogik zu prüfen.

    • Klicken Sie auf den Tab Ausführungen, um den Audit- und Ausführungsverlauf aufzurufen.

  7. Wählen Sie im Bereich Lineage Explorer Filterkriterien aus, z. B. Richtung, Abhängigkeitstyp oder Zeitraum, und klicken Sie dann auf Anwenden.

    Dadurch wird eine fokussierte Ansicht in einer bestimmten Region geöffnet (Vorschau). In dieser Ansicht wird das Diagramm automatisch auf bis zu drei Knotenebenen erweitert. Weitere Informationen finden Sie unter Filter anwenden, um eine fokussierte Lineage-Ansicht zu erhalten.

  8. Wählen Sie in der fokussierten Diagramm-Ansicht einen Knoten aus und klicken Sie dann im Detailbereich des Knotens auf Pfad visualisieren, um den Lineage-Pfad vom ausgewählten Knoten zurück zum Stammknoten zu visualisieren (nur in der fokussierten Ansicht).

    Weitere Informationen finden Sie unter Visualisierung des Lineage-Pfads.

  9. Führen Sie einen der folgenden Schritte aus, um die Herkunft auf Spaltenebene (nur für BigQuery-Jobs) aufzurufen:

    • Klicken Sie in einer fokussierten Graph-Ansicht in einer Tabelle auf das Spaltensymbol.
      Symbol zum Wechseln zur Herkunft auf Spaltenebene.
      Spaltensymbol
    • Filtern Sie im Bereich Lineage Explorer nach Spaltenname und klicken Sie auf Übernehmen.

    Weitere Informationen finden Sie unter Herkunft auf Spaltenebene.

  10. Klicken Sie auf  Zurücksetzen.

    Dadurch werden alle angewendeten Filter entfernt und Sie gelangen zum Anfang der Diagrammansicht.

  11. Klicken Sie auf Liste, um zur Listenansicht zu wechseln.

    Die Listenansicht bietet vereinfachte und detaillierte tabellarische Darstellungen der Herkunft sowohl auf Tabellen- als auch auf Spaltenebene, die mit der Diagrammansicht synchronisiert werden. Standardmäßig wird die vereinfachte Listenansicht angezeigt. Sie können zur detaillierten Listenansicht wechseln, um einzelne Quell-Ziel-Beziehungen zu analysieren. Sie können konfigurieren, welche Spalten angezeigt werden, und Lineage-Daten exportieren. Weitere Informationen finden Sie unter Lineage-Listenansicht.

Herkunft in Vertex AI ansehen

Systeme wie Vertex AI Pipelines generieren Herkunftsdaten für Vertex AI-Modelle und ‑Datasets. Sie können Informationen zur Datenherkunft in der Vertex AI-Weboberfläche aufrufen.

Herkunft eines verwalteten Datasets in Vertex AI ansehen

So rufen Sie den Datenursprung für ein Dataset auf:

  1. Rufen Sie in der Google Cloud Console die Seite Datasets auf.

    Seite „Datasets“ öffnen

  2. Klicken Sie auf das Dataset, für das Sie den Datenursprung sehen möchten.

  3. Klicken Sie auf den Tab Lineage.

    Die Standardansicht Diagramm wird geöffnet. Sie zeigt die Datenherkunft auf Tabellenebene über Systeme und Regionen hinweg. Weitere Informationen finden Sie unter Ansicht „Abstammungsdiagramm“.

  4. Wenn Sie den Lineage-Graphen manuell untersuchen möchten, klicken Sie neben einem Knoten auf Maximieren, um jeweils fünf weitere Knoten zu laden.

    Weitere Informationen finden Sie unter Abstammungsdiagramm manuell untersuchen.

  5. Klicken Sie in der Ansicht Graph auf einen Knoten.

    Der Bereich Details wird mit Informationen zum Asset geöffnet, z. B. mit dem vollständig qualifizierten Namen und dem Typ. Weitere Informationen finden Sie unter Knotendetails.

  6. Klicken Sie in der Ansicht Graph auf eine Kante mit einem Prozesssymbol.

    Der Bereich Abfrage wird geöffnet. Weitere Informationen finden Sie unter Transformationslogik prüfen und Ausführungsprotokoll und -verlauf.

    • Klicken Sie auf den Tab Details, um die Transformationslogik zu prüfen.

    • Klicken Sie auf den Tab Ausführungen, um den Audit- und Ausführungsverlauf aufzurufen.

  7. Wählen Sie im Bereich Lineage Explorer Filterkriterien aus, z. B. Richtung, Abhängigkeitstyp oder Zeitraum, und klicken Sie dann auf Anwenden.

    Dadurch wird eine fokussierte Ansicht in einer bestimmten Region geöffnet (Vorschau). In dieser Ansicht wird das Diagramm automatisch auf bis zu drei Knotenebenen erweitert. Weitere Informationen finden Sie unter Filter anwenden, um eine fokussierte Lineage-Ansicht zu erhalten.

  8. Wählen Sie in der fokussierten Diagramm-Ansicht einen Knoten aus und klicken Sie dann im Detailbereich des Knotens auf Pfad visualisieren, um den Lineage-Pfad vom ausgewählten Knoten zurück zum Stammknoten zu visualisieren (nur in der fokussierten Ansicht).

    Weitere Informationen finden Sie unter Visualisierung des Lineage-Pfads.

  9. Führen Sie einen der folgenden Schritte aus, um die Herkunft auf Spaltenebene (nur für BigQuery-Jobs) aufzurufen:

    • Klicken Sie in einer fokussierten Graph-Ansicht in einer Tabelle auf das Spaltensymbol.
      Symbol zum Wechseln zur Herkunft auf Spaltenebene.
      Spaltensymbol
    • Filtern Sie im Bereich Lineage Explorer nach Spaltenname und klicken Sie auf Übernehmen.

    Weitere Informationen finden Sie unter Herkunft auf Spaltenebene.

  10. Klicken Sie auf  Zurücksetzen.

    Dadurch werden alle angewendeten Filter entfernt und Sie gelangen zum Anfang der Diagrammansicht.

  11. Klicken Sie auf Liste, um zur Listenansicht zu wechseln.

    Die Listenansicht bietet vereinfachte und detaillierte tabellarische Darstellungen der Herkunft sowohl auf Tabellen- als auch auf Spaltenebene, die mit der Diagrammansicht synchronisiert werden. Standardmäßig wird die vereinfachte Listenansicht angezeigt. Sie können zur detaillierten Listenansicht wechseln, um einzelne Quell-Ziel-Beziehungen zu analysieren. Sie können konfigurieren, welche Spalten angezeigt werden, und Lineage-Daten exportieren. Weitere Informationen finden Sie unter Lineage-Listenansicht.

Herkunft eines Modells in Vertex AI ansehen

So rufen Sie den Datenursprung für ein Modell auf:

  1. Rufen Sie in der Google Cloud Console die Seite Model Registry auf.

    Seite „Model Registry“ öffnen

  2. Klicken Sie auf das Modell, für das Sie den Datenursprung sehen möchten.

  3. Klicken Sie auf den Tab Lineage.

    Die Standardansicht Diagramm wird geöffnet. Sie zeigt die Datenherkunft auf Tabellenebene über Systeme und Regionen hinweg. Weitere Informationen finden Sie unter Ansicht „Abstammungsdiagramm“.

  4. Wenn Sie den Lineage-Graphen manuell untersuchen möchten, klicken Sie neben einem Knoten auf Maximieren, um jeweils fünf weitere Knoten zu laden.

    Weitere Informationen finden Sie unter Abstammungsdiagramm manuell untersuchen.

  5. Klicken Sie in der Ansicht Graph auf einen Knoten.

    Der Bereich Details wird mit Informationen zum Asset geöffnet, z. B. mit dem vollständig qualifizierten Namen und dem Typ. Weitere Informationen finden Sie unter Knotendetails.

  6. Klicken Sie in der Ansicht Graph auf eine Kante mit einem Prozesssymbol.

    Der Bereich Abfrage wird geöffnet. Weitere Informationen finden Sie unter Transformationslogik prüfen und Ausführungsprotokoll und -verlauf.

    • Klicken Sie auf den Tab Details, um die Transformationslogik zu prüfen.

    • Klicken Sie auf den Tab Ausführungen, um den Audit- und Ausführungsverlauf aufzurufen.

  7. Wählen Sie im Bereich Lineage Explorer Filterkriterien aus, z. B. Richtung, Abhängigkeitstyp oder Zeitraum, und klicken Sie dann auf Anwenden.

    Dadurch wird eine fokussierte Ansicht in einer bestimmten Region geöffnet (Vorschau). In dieser Ansicht wird das Diagramm automatisch auf bis zu drei Knotenebenen erweitert. Weitere Informationen finden Sie unter Filter anwenden, um eine fokussierte Lineage-Ansicht zu erhalten.

  8. Wählen Sie in der fokussierten Diagramm-Ansicht einen Knoten aus und klicken Sie dann im Detailbereich des Knotens auf Pfad visualisieren, um den Lineage-Pfad vom ausgewählten Knoten zurück zum Stammknoten zu visualisieren (nur in der fokussierten Ansicht).

    Weitere Informationen finden Sie unter Visualisierung des Lineage-Pfads.

  9. Führen Sie einen der folgenden Schritte aus, um die Herkunft auf Spaltenebene (nur für BigQuery-Jobs) aufzurufen:

    • Klicken Sie in einer fokussierten Graph-Ansicht in einer Tabelle auf das Spaltensymbol.
      Symbol zum Wechseln zur Herkunft auf Spaltenebene.
      Spaltensymbol
    • Filtern Sie im Bereich Lineage Explorer nach Spaltenname und klicken Sie auf Übernehmen.

    Weitere Informationen finden Sie unter Herkunft auf Spaltenebene.

  10. Klicken Sie auf  Zurücksetzen.

    Dadurch werden alle angewendeten Filter entfernt und Sie gelangen zum Anfang der Diagrammansicht.

  11. Klicken Sie auf Liste, um zur Listenansicht zu wechseln.

    Die Listenansicht bietet vereinfachte und detaillierte tabellarische Darstellungen der Herkunft sowohl auf Tabellen- als auch auf Spaltenebene, die mit der Diagrammansicht synchronisiert werden. Standardmäßig wird die vereinfachte Listenansicht angezeigt. Sie können zur detaillierten Listenansicht wechseln, um einzelne Quell-Ziel-Beziehungen zu analysieren. Sie können konfigurieren, welche Spalten angezeigt werden, und Lineage-Daten exportieren. Weitere Informationen finden Sie unter Lineage-Listenansicht.

Nächste Schritte