Tabellen in Data Catalog anhand von Informationen aus Datenprofilen taggen

Auf dieser Seite wird beschrieben, wie Sie Data Catalog-Tags automatisch auf BigQuery-Tabellen anwenden, nachdem der Schutz sensibler Daten Profile für diese Tabellen erstellt hat. Außerdem finden Sie hier Beispielabfragen, mit denen Sie getaggte Daten in Ihrer Organisation und Ihren Projekten finden können.

Diese Funktion ist nützlich, wenn Sie Ihre manuell zusammengestellten Metadaten in Knowledge Catalog mit Insights aus Datenprofilen von Sensitive Data Protection ergänzen möchten. Die generierten Tags enthalten die folgenden Statistiken:

  • In den Spalten der Tabelle erkannte Informationstypen (infoTypes)
  • Berechnete Vertraulichkeitsstufe der Tabelle
  • Berechnete Datenrisikostufe der Tabelle

Insights aus Datenprofilen von Sensitive Data Protection können Ihnen helfen, mit Knowledge Catalog sensible und risikoreiche Daten in Ihrer Organisation zu finden. Nutzen Sie diese Statistiken, um fundierte Entscheidungen zum Verwalten und Steuern Ihrer Daten zu treffen.

Wenn Sie die Ergebnisse von Prüfjobs – nicht von Datenprofilerstellungsvorgängen – an Knowledge Catalog senden möchten, lesen Sie stattdessen Sensitive Data Protection-Prüfergebnisse an Data Catalog senden.

Datenprofile

Sie können Sensitive Data Protection so konfigurieren, dass automatisch Profile für Daten in einer Organisation, einem Ordner oder einem Projekt erstellt werden. Datenprofile enthalten Messwerte und Metadaten zu Ihren Daten und können ermitteln, wo sich sensible und risikoreiche Daten befinden. Sensitive Data Protection meldet diese Messwerte mit unterschiedlichem Detaillierungsgrad. Informationen zu den Datentypen, für die Sie Profile erstellen können, finden Sie unter Unterstützte Ressourcen.

Knowledge Catalog und Data Catalog

Knowledge Catalog ist ein Google Cloud Dienst, der verteilte Daten zusammenführt und die Datenverwaltung und ‑steuerung für diese Daten automatisiert. Data Catalog (eingestellt) ist ein vollständig verwalteter, skalierbarer Dienst zur Metadatenverwaltung.

Mit Data Catalog können Sie Tags und Tag-Vorlagen verwenden, um Ihren Daten geschäftliche Metadaten hinzuzufügen. Anschließend können Sie in einem einheitlichen Dienst nach allen Metadaten für Ihre Organisation oder Ihr Projekt suchen und diese verwalten. Weitere Informationen finden Sie unter Tags und Tag-Vorlagen.

Funktionsweise

Wenn in Ihrer Erkennungsscan-Konfiguration die Aktion Als Tags an Dataplex senden aktiviert ist, führt Sensitive Data Protection jedes Mal, wenn er Profile für Ihre Daten erstellt, die folgenden Schritte aus. Diese Aktion wird nur auf neue und aktualisierte Profile angewendet. Vorhandene Profile, die nicht aktualisiert werden, werden nicht an Knowledge Catalog gesendet.

  1. Erstellt eine private Tag Vorlage mit dem Schema der Tags, die an Ihre BigQuery Tabellen angehängt werden. Informationen zum Namen, zur ID und zum Speicherort der Tag-Vorlage, finden Sie unter Details zur Tag-Vorlage.

    Nur Hauptkonten mit den entsprechenden Rollen und Berechtigungen können die Tag-Vorlage ansehen.

  2. Erstellt ein Tag für jede BigQuery-Tabelle, für die Sie ein Profil erstellen. Das Tag basiert auf der neu erstellten Tag-Vorlage.

    Ein resultierendes Tag, das an eine Tabelle angehängt wird, kann beispielsweise die folgenden Metadaten haben:

    Anzeigename Wert
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Eine Tabelle hat zwei Tags, wenn sie durch beide der folgenden Aktionen profiliert wurde:

  • Eine Scankonfiguration auf Organisations- oder Ordnerebene
  • Eine Scankonfiguration auf Projektebene

Nachdem die Tabellen getaggt wurden, können Sie in Knowledge Catalog nach allen Daten in Ihrer Organisation oder Ihrem Projekt mit bestimmten Tag-Werten suchen.

Details zur Tag-Vorlage

Der Vorlagenname, die Vorlagen-ID und das Projekt, in dem die neue Tag-Vorlage gespeichert wird, hängen von der Ressource ab, auf die sich die Scankonfiguration bezieht.

  • Wenn die Scankonfiguration eine Konfiguration auf Organisations- oder Ordnerebene ist, wird die Tag-Vorlage im Dienst-Agent Container gespeichert. Der Name der Tag-Vorlage ist Sensitive Data Profile. Die Vorlagen-ID ist sensitive_data_profile.
  • Wenn die Scankonfiguration eine Konfiguration auf Projektebene ist, wird die Tag-Vorlage in dem Projekt gespeichert, für das ein Profil erstellt werden soll. Der Name der Tag-Vorlage ist Sensitive Data Profile (Project). Die Vorlagen-ID ist sensitive_data_profile_project.

Preise

Informationen zu den Kosten, die andere Google Cloud Dienste für den Export von Datenprofilen in Rechnung stellen, finden Sie unter Preise für den Export von Daten profilen.

BigQuery-Tabellen automatisch basierend auf Datenprofilen taggen

  1. Erstellen Sie eine Scankonfiguration. Alternativ können Sie eine vorhandene Scankonfiguration bearbeiten.

  2. Achten Sie im Schritt Aktionen hinzufügen darauf, dass Als Tags an Dataplex senden aktiviert ist.

    • Wenn Sie eine Scankonfiguration erstellen, ist diese Aktion standardmäßig aktiviert.
    • Wenn Sie eine Scankonfiguration bearbeiten, müssen Sie diese Aktion aktivieren.

Nachdem die Daten profiliert und getaggt wurden, können Sie in Knowledge Catalog nach getaggten Daten suchen.

Rollen und Berechtigungen zum Ansehen von Tags

In den Knowledge Catalog-Suchergebnissen werden nur die Daten angezeigt, auf die Sie Zugriff haben. Sie benötigen die folgenden IAM-Rollen oder ‑Berechtigungen (Identity and Access Management), um nach den Tags zu suchen, die an Ihre BigQuery-Tabellen angehängt sind.

Zweck Vordefinierte Rolle Relevante Berechtigungen
Private Tag-Vorlage ansehen Data Catalog-Tag-Vorlagenbetrachter (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Auf BigQuery-Tabellen angewendete Tags ansehen BigQuery-Metadatenbetrachter (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Weitere Informationen zu Knowledge Catalog-Rollen finden Sie unter Rollen zum Ansehen öffentlicher und privater Tags.

Informationen zum Zuweisen einer vordefinierten Rolle finden Sie unter Einzelne Rolle zuweisen. Wenn Sie anstelle einer vordefinierten Rolle eine benutzerdefinierte Rolle verwenden möchten, muss diese die entsprechenden Berechtigungen haben. Weitere Informationen finden Sie unter Benutzerdefinierte Rolle erstellen.

Generierte Tag-Vorlage finden

  1. Rufen Sie in der Google Cloud Console die Seite Tag-Vorlagen des Knowledge Catalog auf.

    Zu den Tag-Vorlagen

  2. Suchen Sie in der Liste nach der Tag-Vorlage. Informationen zum Namen, zur ID und zum Speicherort der Tag-Vorlage finden Sie unter Details zur Tag-Vorlage.

  3. Optional: Wenn Sie die Tag-Vorlage finden möchten, die von einer bestimmten Erkennungsscan-Konfiguration generiert wurde, geben Sie Folgendes in das Feld Filter ein:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID des Projekts, das mit der Scankonfiguration verknüpft ist. Wenn Sie Profile für Ihre Daten auf Organisations- oder Ordnerebene erstellt haben, geben Sie die Projekt-ID des Dienst-Agent-Containers ein.
    • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.

Generiertes Tag für ein bestimmtes Tabellendatenprofil finden

  1. Rufen Sie in der Google Cloud Console die Seite Suchen des Knowledge Catalog auf.

    Zur Suche

  2. Geben Sie im Feld Suchen Folgendes ein:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Ersetzen Sie Folgendes:

    • TABLE_ID: die ID der Tabelle, für die ein Profil erstellt wurde.
    • PROJECT_ID: die ID des Projekts, das die Tag Vorlage enthält. Wenn Sie Profile für Ihre Daten auf Organisations- oder Ordnerebene erstellt haben, geben Sie die Projekt-ID des Dienst-Agent-Containers ein.
    • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  3. Klicken Sie in der angezeigten Liste auf die Tabellen-ID. Die Details der BigQuery-Tabelle werden zusammen mit allen Sensitive Data Profile oder Sensitive Data Profile (Project) Tags angezeigt, die daran angehängt sind.

    Eine Tabelle hat zwei Tags, wenn sie durch beide der folgenden Aktionen profiliert wurde:

    • Eine Scankonfiguration auf Organisations- oder Ordnerebene
    • Eine Scankonfiguration auf Projektebene

Informationen zum Ausführen einer Suche über die Data Catalog API finden Sie unter Nach Datenassets suchen.

Beispiele für Suchanfragen

In diesem Abschnitt finden Sie Beispielsuchanfragen, mit denen Sie in Knowledge Catalog nach Daten in Ihrer Organisation oder Ihrem Projekt mit bestimmten Tag-Werten suchen können.

Sie können nur die Daten finden, auf die Sie Zugriff haben. Der Datenzugriff wird über IAM-Berechtigungen gesteuert. Weitere Informationen finden Sie auf dieser Seite unter Rollen und Berechtigungen zum Ansehen von Tags.

Sie können diese Abfragen auf der Seite Suchen des Knowledge Catalog in der Google Cloud Console eingeben.

Zur Suche

Informationen zum Erstellen der Abfragen finden Sie unter Data Catalog-Such syntax. Informationen zum Ausführen einer Suche über die Data Catalog API finden Sie unter Nach Datenassets suchen.

Alle Tabellen finden, die mit der neuen Tag-Vorlage getaggt wurden

tag:PROJECT_ID.TAG_TEMPLATE_ID

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID des Projekts, das die Tag Vorlage enthält. Wenn Sie Profile für Ihre Daten auf Organisations- oder Ordnerebene erstellt haben, geben Sie die Projekt-ID des Dienst-Agent-Containers ein.
  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.

Die folgenden Beispiele auf dieser Seite enthalten keine Projekt-ID. Daher erhalten Sie möglicherweise Ergebnisse, die mit verschiedenen Erkennungsscan-Konfigurationen verknüpft sind. Wenn Sie die Ergebnisse auf eine bestimmte Scankonfiguration beschränken möchten, fügen Sie der Abfrage die Projekt-ID hinzu, wie in diesem Beispiel gezeigt.

Alle Tabellen finden, für die zuletzt vor einem bestimmten Datum ein Profil erstellt wurde

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • DATE: ein Datum im Format YYYY-MM-DD, z. B. 2023-01-15.

Alle Tabellen mit einer bestimmten Vertraulichkeitsstufe auf Tabellenebene finden

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • SENSITIVITY_SCORE: einer der Werte HIGH, MODERATE oder LOW.

Weitere Informationen finden Sie unter Datenrisiko- und Vertraulichkeitsstufen.

Alle Tabellen mit einer bestimmten Datenrisikostufe finden

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • DATA_RISK_LEVEL: einer der Werte HIGH, MODERATE oder LOW.

Weitere Informationen finden Sie unter Datenrisiko- und Vertraulichkeitsstufen.

Alle Tabellen finden, die einen bestimmten vorhergesagten infoType enthalten

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • INFOTYPE: der infoType, z. B. PERSON_NAME.

Eine Liste aller eingebundenen infoTypes finden Sie in der InfoType-Detektor referenz.

Weitere Informationen finden Sie in der Messwert referenz unter Vorhergesagter infoType.

Alle Tabellen finden, die einen bestimmten infoType teilweise enthalten

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • INFOTYPE: der infoType, z. B. PERSON_NAME.

Eine Liste aller eingebundenen infoTypes finden Sie in der InfoType-Detektor referenz.

Weitere Informationen finden Sie in der Messwert referenz unter Andere infoTypes.

Alle Tabellen finden, die eine bestimmte Spalte mit einem bestimmten vorhergesagten infoType enthalten

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • COLUMN_NAME: der Name der Spalte in der BigQuery-Tabelle.
  • INFOTYPE: der infoType, z. B. PERSON_NAME.

Eine Liste aller eingebundenen infoTypes finden Sie in der InfoType-Detektor referenz.

Weitere Informationen finden Sie in der Messwert referenz unter Vorhergesagter infoType.

Alle Tabellen finden, die eine bestimmte Spalte mit einer bestimmten Vertraulichkeitsstufe auf Spaltenebene enthalten

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Ersetzen Sie Folgendes:

  • TAG_TEMPLATE_ID: sensitive_data_profile wenn die Scankonfiguration für eine Organisation oder einen Ordner gilt, oder sensitive_data_profile_project wenn die Scankonfiguration für ein Projekt gilt.
  • COLUMN_NAME: der Name der Spalte in der BigQuery-Tabelle.
  • SENSITIVITY_SCORE: einer der Werte HIGH, MODERATE oder LOW.

Weitere Informationen finden Sie unter Datenrisiko- und Vertraulichkeitsstufen.

Abgeschnittene Tag-Werte

Wenn die Daten in der Spaltenüberschrift einer BigQuery-Tabelle 10 MB überschreiten, wird im resultierenden Tag möglicherweise [TRUNCATED] im Feld Column Insights oder Column Sensitivity angezeigt. In diesem Fall empfehlen wir, Sensitive Data Protection aufzurufen, um das Tabellendatenprofil und die zugehörigen Spaltendatenprofile zu prüfen.