Einführung in das BigQuery-Framework zur Entitätsauflösung

In diesem Dokument wird die Architektur des BigQuery-Entitätsauflösungsframeworks beschrieben. Die Entitätsauflösung ist die Möglichkeit, Datensätze über freigegebene Daten hinweg abzugleichen, die keine gemeinsame Kennzeichnung haben, oder um freigegebene Daten mithilfe eines Identitätsdienstes eines Google Cloud Partners zu ergänzen.

Dieses Dokument richtet sich an Endnutzer der Entitätsauflösung (im Folgenden als Endnutzer bezeichnet) und Identitätsanbieter. Implementierungsdetails finden Sie unter Entitätsauflösung in BigQuery konfigurieren und verwenden.

Sie können die BigQuery-Entitätsauflösung für alle Daten verwenden, die vorbereitet werden, bevor Daten für einen Data-Clean-Room beigetragen werden. Die Entitätsauflösung ist sowohl im On-Demand- als auch im Kapazitätspreismodell und in allen BigQuery-Versionen verfügbar.

Vorteile

Als Endnutzer können Sie von der Entitätsauflösung auf folgende Weise profitieren:

  • Sie können Entitäten direkt auflösen, ohne Datenübertragungsgebühren anzuhäufen, da ein Abonnent oder Google Cloud Partner Ihre Daten mit seiner Identitätstabelle abgleicht und die Abgleichergebnisse in ein Dataset in Ihrem Projekt schreibt.
  • Sie müssen keine ETL-Jobs (Extrahieren, Transformieren und Laden) verwalten.

Als Identitätsanbieter können Sie von der Entitätsauflösung auf folgende Weise profitieren:

  • Sie können die Entitätsauflösung als verwaltetes SaaS-Angebot (Software as a Service) im Google Cloud Marketplace anbieten.
  • Sie können Ihre eigenen Identitätsgraphen und Abgleichslogik verwenden, ohne sie Nutzern offenzulegen.

Architektur

In BigQuery wird die Entitätsauflösung mithilfe von Remote-Funktionsaufrufen implementiert, die Entitätsauflösungsprozesse in der Umgebung eines Identitätsanbieters aktivieren. Ihre Daten müssen während dieses Vorgangs nicht kopiert oder verschoben werden. Im folgenden Diagramm mit Erläuterung wird der Workflow für die Entitätsauflösung beschrieben:

Diagramm mit zwei Hauptabschnitten: ein Endnutzerprojekt und ein Identitätsanbieterprojekt.

  1. Der Endnutzer gewährt dem Dienstkonto des Identitätsanbieters Lesezugriff auf seinen Eingabedatensatz und Schreibzugriff auf seinen Ausgabedatensatz.
  2. Der Nutzer ruft die Remotefunktion auf, die seine Eingabedaten mit den Identitätsgraphendaten des Anbieters abgleicht. Die Abgleichsparameter werden mit der Remote-Funktion an den Anbieter übergeben.
  3. Das Dienstkonto des Anbieters liest den Eingabedatensatz und verarbeitet ihn.
  4. Das Dienstkonto des Anbieters schreibt die Ergebnisse der Entitätsauflösung in den Ausgabedatensatz des Nutzers.

In den folgenden Abschnitten werden die Komponenten für Endnutzer und Anbieterprojekte beschrieben.

Endnutzerkomponenten

Zu den Endnutzerkomponenten gehören:

  • Remote-Funktionsaufruf: Ein Aufruf, bei dem ein vom Identitätsanbieter definiertes und implementiertes Verfahren ausgeführt wird. Mit diesem Aufruf wird der Prozess zur Entitätsauflösung gestartet.
  • Eingabe-Dataset: Das Quell-Dataset, das die abzugleichenden Daten enthält. Optional kann der Datensatz eine Metadatentabelle mit zusätzlichen Parametern enthalten. Anbieter geben Schemaanforderungen für Eingabedatensätze an.
  • Ausgabe-Dataset: Das Ziel-Dataset, in dem der Anbieter die übereinstimmenden Ergebnisse als Ausgabetabelle speichert. Optional kann der Anbieter eine Jobstatustabelle mit Details zum Job zur Entitätsauflösung in dieses Dataset schreiben. Das Ausgabe-Dataset kann mit dem Eingabe-Dataset identisch sein.

Komponenten des Identitätsanbieters

Zu den Komponenten von Identitätsanbietern gehören:

  • Steuerungsebene: enthält eine BigQuery-Remote-Funktion, die den Abgleichsprozess orchestriert. Diese Funktion kann als Cloud Run-Job oder Cloud Functions-Funktion implementiert werden. Die Steuerungsebene kann auch andere Dienste enthalten, z. B. Authentifizierung und Autorisierung.
  • Datenebenenschicht: Enthält das Identitätsgraph-Dataset und die gespeicherte Prozedur, die die Logik für die Anbieterabgleiche implementiert. Die gespeicherte Prozedur kann als SQL-gespeicherte Prozedur oder als Apache Spark-gespeicherte Prozedur implementiert werden. Das Identity Graph-Dataset enthält die Tabellen, mit denen die Endnutzerdaten abgeglichen werden.

Nächste Schritte