Entitätsauflösung in BigQuery konfigurieren und verwenden
In diesem Dokument wird beschrieben, wie die Implementierung von Entitätsauflösung für Endnutzer und Identitätsanbieter erfolgt.
Sie können dieses Dokument verwenden, um eine Verbindung zu einem Identitätsanbieter herzustellen und dessen Dienst zum Abgleichen von Datensätzen zu nutzen. Identitätsanbieter können dieses Dokument verwenden, um Dienste einzurichten, die sie Ihnen im Google Cloud Marketplace zur Verfügung stellen.
Workflow für Endnutzer
In den folgenden Abschnitten wird beschrieben, wie Sie die Entitätsauflösung in BigQuery konfigurieren. Eine visuelle Darstellung der vollständigen Einrichtung finden Sie unter Architektur für die Entitätsauflösung.
Hinweis
- Wenden Sie sich an einen Identitätsanbieter. BigQuery unterstützt die Entitäts auflösung mit LiveRamp und TransUnion.
- Fordern Sie die folgenden Elemente vom Identitätsanbieter an:
- Dienstkonto-Anmeldedaten
- Signatur der Remote-Funktion
- Erstellen Sie zwei Datasets in Ihrem Google Cloud Projekt:
- Eingabe-Dataset
- Ausgabe-Dataset
Erforderliche Rollen
Um die Berechtigungen zu erhalten, die Sie zum Ausführen von Entitätsauflösungsjobs benötigen, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren:
-
Gehen Sie so vor, damit das Dienstkonto des Identitätsanbieters das Eingabe-Dataset lesen und in das Ausgabe-Dataset schreiben kann:
- BigQuery Data Viewer (
roles/bigquery.dataViewer) für das Eingabe-Dataset - BigQuery Data Editor (
roles/bigquery.dataEditor) für das Ausgabe-Dataset
- BigQuery Data Viewer (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Entitäten übersetzen oder auflösen
Eine anbieterspezifische Anleitung finden Sie in den folgenden Abschnitten.
LiveRamp
Vorbereitung
- Konfigurieren Sie LiveRamp Embedded Identity in BigQuery. Weitere Informationen finden Sie unter LiveRamp Embedded Identity in BigQuery aktivieren.
- Stimmen Sie sich mit LiveRamp ab, um die API-Anmeldedaten für die Verwendung mit Embedded Identity zu aktivieren. Weitere Informationen finden Sie unter Authentifizierung.
Einrichtung
Die folgenden Schritte sind erforderlich, wenn Sie LiveRamp Embedded Identity zum ersten Mal verwenden. Nach der Einrichtung müssen Sie nur die Eingabetabelle und die Metadatentabelle zwischen den Ausführungen ändern.
Eingabetabelle erstellen
Erstellen Sie eine Tabelle im Eingabe-Dataset. Füllen Sie die Tabelle mit RampIDs, Zieldomänen und Zieltypen. Weitere Informationen und Beispiele finden Sie unter Spalten und Beschreibungen in Eingabetabellen.
Metadatentabelle erstellen
Die Metadatentabelle steuert die Ausführung von LiveRamp Embedded Identity in BigQuery. Erstellen Sie eine Metadatentabelle im Eingabe-Dataset. Füllen Sie die Metadatentabelle mit Client-IDs, Ausführungsmodi, Zieldomänen und Zieltypen. Weitere Informationen und Beispiele finden Sie unter Spalten und Beschreibungen in Metadatentabellen.
Tabellen für LiveRamp freigeben
Gewähren Sie dem Dienstkonto von LiveRamp Google Cloud Zugriff auf die Daten in Ihrem Eingabe-Dataset, damit es diese aufrufen und verarbeiten kann. Weitere Informationen und Beispiele finden Sie unter Tabellen und Datasets für LiveRamp freigeben.
Eingebetteten Identitätsjob ausführen
So führen Sie einen eingebetteten Identitätsjob mit LiveRamp in BigQuery aus:
- Prüfen Sie, ob alle RampIDs, die in Ihrer Domain codiert wurden, in Ihrer Eingabetabelle enthalten sind.
- Prüfen Sie vor dem Ausführen des Jobs, ob die Metadatentabelle korrekt ist.
- Wenden Sie sich an LiveRampIdentitySupport@liveramp.com mit einer Jobverarbeitungsanfrage. Geben Sie dabei die Projekt-ID, die Dataset-ID und die Tabellen-ID (falls zutreffend) für die Eingabetabelle, die Metadatentabelle und das Ausgabe-Dataset an.
Die Ergebnisse werden im Allgemeinen innerhalb von 3 Arbeitstagen an Ihr Ausgabe-Dataset gesendet.
LiveRamp-Unterstützung
Bei Problemen wenden Sie sich bitte an den LiveRamp Identity Support.
LiveRamp-Abrechnung
LiveRamp übernimmt die Abrechnung für die Entitätsauflösung.
TransUnion
Vorbereitung
- Wenden Sie sich an den Cloud-Support von TransUnion , um eine Vereinbarung für den Zugriff auf den Dienst zu unterzeichnen. Geben Sie Ihre Google Cloud Projekt-ID, Eingabedatentypen, den Anwendungsfall und das Datenvolumen an.
- Der Cloud-Support von TransUnion aktiviert den Dienst für Ihr Google Cloud Projekt und stellt eine detaillierte Implementierungsanleitung mit den verfügbaren Ausgabedaten zur Verfügung.
Einrichtung
Die folgenden Schritte sind erforderlich, wenn Sie den Dienst TruAudience Identity Resolution and Enrichment von TransUnion in Ihrer BigQuery-Umgebung verwenden.
Externe Verbindung erstellen
Erstellen Sie eine Verbindung zu einer externen Datenquelle vom Typ Remote-Modelle in Vertex AI, Remote-Funktionen und BigLake (Cloud-Ressource). Mit dieser Verbindung können Sie den Dienst zur Entitätsauflösung der im TransUnion Google Cloud Konto gehostet wird, von Ihrem Google Cloud Konto aus auslösen.
Kopieren Sie die Verbindungs-ID und die Dienstkonto-ID und geben Sie diese IDs an das Kundenserviceteam von TransUnion weiter.
Remote-Funktion erstellen
Erstellen Sie eine Remote-Funktion zur Interaktion mit dem Dienst-Orchestrator-Endpunkt, der im TransUnion Google Cloud Projekt gehostet wird, um die erforderlichen Metadaten (einschließlich Schemazuordnungen) an den TransUnion-Dienst zu übergeben. Verwenden Sie die Verbindungs-ID aus der von Ihnen erstellten externen Verbindung und den von TransUnion gehosteten Cloud Functions-Endpunkt, der vom Kundenserviceteam von TransUnion bereitgestellt wurde.
Eingabetabelle erstellen
Erstellen Sie eine Tabelle im Eingabe-Dataset. TransUnion unterstützt Name, Postadresse, E-Mail-Adresse, Telefonnummer, Geburtsdatum, IPv4-Adresse und Geräte-IDs als Eingaben. Halten Sie sich an die Formatierungsrichtlinien in der Implementierungsanleitung, die TransUnion Ihnen zur Verfügung gestellt hat.
Metadatentabelle erstellen
Erstellen Sie eine Metadatentabelle, um die Konfiguration zu speichern, die für die Verarbeitung von Daten durch den Dienst zur Entitätsauflösung erforderlich ist, einschließlich Schemazuordnungen. Weitere Informationen und Beispiele finden Sie in der Implementierungsanleitung, die TransUnion Ihnen zur Verfügung gestellt hat.
Jobstatustabelle erstellen
Erstellen Sie eine Tabelle, um Updates zur Verarbeitung eines Eingabe-Batch zu erhalten. Sie können diese Tabelle abfragen, um andere Downstream-Prozesse in Ihrer Pipeline auszulösen. Mögliche Jobstatus sind RUNNING, COMPLETED oder ERROR.
Dienstaufruf erstellen
Führen Sie die folgenden Schritte aus, um den Dienst zur Entitätsauflösung von TransUnion aufzurufen, nachdem Sie alle Metadaten erfasst, verpackt und an den von TransUnion gehosteten Cloud Functions-Endpunkt für den Aufruf übergeben haben.
-- create service invocation procedure
CREATE OR REPLACE
PROCEDURE
`<project_id>.<dataset_id>.TransUnion_get_identities`(metadata_table STRING, config_id STRING)
begin
declare sql_query STRING;
declare json_result STRING;
declare base64_result STRING;
SET sql_query =
'''select to_json_string(array_agg(struct(config_id,key,value))) from `''' || metadata_table
|| '''` where config_id="''' || config_id || '''" ''';
EXECUTE immediate sql_query INTO json_result;
SET base64_result = (SELECT to_base64(CAST(json_result AS bytes)));
SELECT `<project_id>.<dataset_id>.remote_call_TransUnion_er`(base64_result);
END;
Ausgabetabelle für Übereinstimmungen erstellen
Führen Sie das folgende SQL-Skript aus, um die Ausgabetabelle für Übereinstimmungen zu erstellen. Dies ist die Standardausgabe der Anwendung, die Übereinstimmungsflags, Scores, persistente individuelle IDs und Haushalts-IDs enthält.
-- create output table
CREATE TABLE `<project_id>.<dataset_id>.TransUnion_identity_output`(
batchid STRING,
uniqueid STRING,
ekey STRING,
hhid STRING,
collaborationid STRING,
firstnamematch STRING,
lastnamematch STRING,
addressmatches STRING,
addresslinkagescores STRING,
phonematches STRING,
phonelinkagescores STRING,
emailmatches STRING,
emaillinkagescores STRING,
dobmatches STRING,
doblinkagescore STRING,
ipmatches STRING,
iplinkagescore STRING,
devicematches STRING,
devicelinkagescore STRING,
lastprocessed STRING);
Metadaten konfigurieren
Folgen Sie der Implementierungsanleitung, die TransUnion Ihnen zur Verfügung gestellt hat, um Ihr Eingabeschema dem Anwendungsschema zuzuordnen. Mit diesen Metadaten wird auch die Generierung von Zusammenarbeits-IDs konfiguriert. Das sind freigabefähige, nicht persistente IDs, die in Data-Clean-Rooms verwendet werden können.
Lese- und Schreibzugriff gewähren
Fordern Sie die Dienstkonto-ID der Apache Spark-Verbindung vom Kundenserviceteam von TransUnion an und gewähren Sie ihr Lese- und Schreibzugriff auf das Dataset mit den Eingabe- und Ausgabetabellen. Wir empfehlen, die Dienstkonto-ID mit der Rolle „BigQuery Data Editor“ für das Dataset zu versehen.
Anwendung aufrufen
Sie können die Anwendung in Ihrer Umgebung aufrufen, indem Sie das folgende Skript ausführen.
call `<project_id>.<dataset_id>.TransUnion_get_identities`("<project_id>.<dataset_id>.TransUnion_er_metadata","1");
-- using metadata table, and 1 = config_id for the batch run
Support
Bei technischen Problemen wenden Sie sich an den Cloud-Support von TransUnion.
Abrechnung und Nutzung
TransUnion erfasst die Nutzung der Anwendung und verwendet diese Daten für Abrechnungszwecke. Aktive Kunden können sich für weitere Informationen an ihren TransUnion-Ansprechpartner wenden.
Workflow für Identitätsanbieter
In den folgenden Abschnitten wird beschrieben, wie Sie die Entitätsauflösung in BigQuery konfigurieren. Eine visuelle Darstellung der vollständigen Einrichtung finden Sie unter Architektur für die Entitätsauflösung.
Hinweis
- Erstellen Sie einen Cloud Run -Job oder eine Cloud Run-Funktion , um sie in die Remote-Funktion zu integrieren. Beide Optionen sind für diesen Zweck geeignet.
Rufen Sie den Namen des Dienstkontos ab, das mit der Cloud Run-Funktion oder dem Cloud Run-Job verknüpft ist:
Wechseln Sie in der Google Cloud Console zur Seite Cloud Functions.
Klicken Sie auf den Namen der Funktion und dann auf den Tab Details.
Suchen Sie im Bereich Allgemeine Informationen nach dem Namen des Dienstkontos für die Remote-Funktion und notieren Sie ihn.
Erstellen Sie eine Remote-Funktion.
Erfassen Sie die Hauptkonten des Endnutzers.
Erforderliche Rollen
Um die Berechtigungen zu erhalten, die Sie zum Ausführen von Entitätsauflösungsjobs benötigen, bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren:
-
Für das Dienstkonto, das mit Ihrer Funktion verknüpft ist, um auf verknüpften Datasets zu lesen und zu schreiben und Aufträge zu starten:
- BigQuery Data Editor (
roles/bigquery.dataEditor) für das Projekt - BigQuery Job User (
roles/bigquery.jobUser) für das Projekt
- BigQuery Data Editor (
-
Für das Hauptkonto des Endnutzers, um die Remote-Funktion zu sehen und eine Verbindung zu ihr herzustellen:
- BigQuery-Verbindungsnutzer (
roles/bigquery.connectionUser) für die Verbindung - BigQuery Data Viewer (
roles/bigquery.dataViewer) für das Dataset der Steuerungsebene mit der Remote-Funktion
- BigQuery-Verbindungsnutzer (
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Remote-Funktion für die Entitätsauflösung freigeben
Ändern Sie den folgenden Code für die Remote-Schnittstelle und geben Sie ihn für den Endnutzer frei. Endnutzer benötigt diesen Code, um den Entitätsauflösungsjob zu starten.
`PARTNER_PROJECT_ID.DATASET_ID`.match`(LIST_OF_PARAMETERS)
Ersetzen Sie LIST_OF_PARAMETERS durch die Liste der Parameter, die an die Remote-Funktion übergeben werden.
Optional: Jobmetadaten bereitstellen
Sie können optional Jobmetadaten bereitstellen, indem Sie eine separate Remote-Funktion verwenden oder eine neue Statustabelle im Ausgabe-Dataset des Nutzers erstellen. Beispiele für Metadaten sind Jobstatus und Messwerte.
Abrechnung für Identitätsanbieter
Um die Abrechnung und das Onboarding von Kunden zu optimieren, binden Sie Ihren Dienst zur Entitätsauflösung in den Google Cloud Marketplace ein. So können Sie ein Preismodell basierend auf der Nutzung des Entitätsauflösungsjobs einrichten, wobei Google die Abrechnung für Sie übernimmt. Weitere Informationen finden Sie unter SaaS-Produkte (Software as a Service) anbieten.
Nächste Schritte
- Informationen zur Entitätsauflösung bei der BigQuery-Freigabe.
- Anleitung zum Erstellen einer Remote-Funktion .
- Verbindung zu einer externen Datenquelle erstellen .
- Informationen für Identitätsanbieter zum Bereitstellen Ihres Dienstes zur Entitätsauflösung im Google Cloud Marketplace