Einführung in das BigQuery-Framework zur Identitätsabgleichung
In diesem Dokument wird die Architektur des BigQuery-Frameworks zur Identitätsabgleichung beschrieben. Bei der Entitätsauflösung werden Datensätze über freigegebene Daten hinweg abgeglichen, die keine gemeinsame Kennzeichnung haben, oder freigegebene Daten werden mithilfe eines Identitätsdienstes eines Google Cloud -Partners ergänzt.
Dieses Dokument richtet sich an Endnutzer der Entitätsauflösung und Identitätsanbieter. Implementierungsdetails finden Sie unter Entitätsauflösung in BigQuery konfigurieren und verwenden.
Sie können die BigQuery-Entitätsauflösung für Daten verwenden, die vorbereitet werden, bevor Sie sie für einen Data-Clean-Room beitragen. Die Identitätsabgleichsfunktion ist in On-Demand- und Kapazitätsmodellen sowie in allen BigQuery-Versionen verfügbar.
Vorteile
Endnutzer profitieren von der Entitätsauflösung auf folgende Weise:
- Entitäten direkt auflösen, ohne Datenübertragungsgebühren zu zahlen. Ein Abonnent oderGoogle Cloud -Partner gleicht Ihre Daten mit seiner Identitätstabelle ab und schreibt die Abgleichergebnisse in ein Dataset in Ihrem Google Cloud -Projekt.
- Sie müssen keine ETL-Jobs (Extrahieren, Transformieren und Laden) verwalten.
Identitätsanbieter profitieren von der Entitätsauflösung auf folgende Weise:
- Bieten Sie die Identitätsabgleichung als verwaltete SaaS-Lösung (Software as a Service) auf dem Google Cloud Marketplace an.
- Verwenden Sie proprietäre Identitätsdiagramme und Abgleichslogik, ohne sie Nutzern preiszugeben.
Architektur
In BigQuery wird die Entitätsauflösung mithilfe von Remote-Funktionsaufrufen implementiert, die Prozesse zur Entitätsauflösung in der Umgebung eines Identitätsanbieters aktivieren. Ihre Daten werden bei diesem Vorgang nicht kopiert oder verschoben. Im folgenden Diagramm mit Erläuterung wird der Workflow für die Entitätsauflösung beschrieben:
- Der Endnutzer gewährt dem Dienstkonto des Identitätsanbieters Lesezugriff auf sein Eingabe-Dataset und Schreibzugriff auf sein Ausgabe-Dataset.
- Der Nutzer ruft die Remote-Funktion auf, die seine Eingabedaten mit den Daten des Identitätsdiagramms des Anbieters abgleicht. Die Remote-Funktion übergibt passende Parameter an den Anbieter.
- Das Dienstkonto des Anbieters liest und verarbeitet das Eingabe-Dataset.
- Das Dienstkonto des Anbieters schreibt die Ergebnisse der Identitätsabgleichung in das Ausgabe-Dataset des Nutzers.
In den folgenden Abschnitten werden die Endnutzerkomponenten und Anbieterprojekte beschrieben.
Endnutzerkomponenten
Zu den Endnutzerkomponenten gehören:
- Remotefunktionsaufruf: Ein Aufruf, der eine vom Identitätsanbieter definierte und implementierte Prozedur ausführt. Mit diesem Aufruf wird der Entitätsauflösungsprozess gestartet.
- Eingabe-Dataset: Das Quelldataset, das die abzugleichenden Daten enthält. Optional kann das Dataset eine Metadatentabelle mit zusätzlichen Parametern enthalten. Anbieter geben Schemaanforderungen für Eingabedatasets an.
- Ausgabe-Dataset: Das Ziel-Dataset, in dem der Anbieter die abgeglichenen Ergebnisse als Ausgabetabelle speichert. Optional kann der Anbieter eine Jobstatustabelle mit Details zum Job zur Identitätsabgleichung in dieses Dataset schreiben. Das Ausgabe-Dataset kann dasselbe wie das Eingabe-Dataset sein.
Komponenten des Identitätsanbieters
Zu den Komponenten des Identitätsanbieters gehören:
- Steuerungsebene: enthält eine BigQuery-Remote-Funktion, die den Abgleichsprozess orchestriert. Diese Funktion kann als Cloud Run-Job oder Cloud Run-Funktion implementiert werden. Die Steuerungsebene kann auch andere Dienste wie Authentifizierung und Autorisierung enthalten.
- Datenebene: Enthält das Dataset mit dem Identitätsdiagramm und die gespeicherte Prozedur, die die Logik für den Anbieterabgleich implementiert. Die gespeicherte Prozedur kann als gespeicherte SQL-Prozedur oder als gespeicherte Apache Spark-Prozedur implementiert werden. Das Identity Graph-Dataset enthält die Tabellen, mit denen die Endnutzerdaten abgeglichen werden.
Nächste Schritte
- Informationen zum Konfigurieren und Verwenden der Entitätsauflösung
- Weitere Informationen zu Remote-Funktionen
- Gespeicherte Prozeduren
- Weitere Informationen zu Data-Clean-Rooms