In BigQuery gespeicherte Datenprofile analysieren

Wenn Sie den Dienst zur Erkennung sensibler Daten so konfiguriert haben, dass alle erfolgreich generierten Datenprofile an BigQuery gesendet werden, können Sie diese Datenprofile abfragen, um Erkenntnisse über Ihre Daten zu gewinnen. Sie können auch Visualisierungstools wie Data Studio verwenden, um benutzerdefinierte Berichte zu erstellen, die auf Ihre geschäftlichen Anforderungen zugeschnitten sind. Alternativ können Sie einen vorgefertigten Bericht verwenden, der vom Schutz sensibler Daten bereitgestellt wird, ihn anpassen und nach Bedarf freigeben.

Auf dieser Seite finden Sie SQL-Beispielabfragen, mit denen Sie mehr über Ihre Datenprofile erfahren können. Außerdem wird gezeigt, wie Sie Datenprofile in Data Studio visualisieren können.

Weitere Informationen zu Datenprofilen finden Sie unter Übersicht über die Erkennung sensibler Daten.

Hinweis

Auf dieser Seite wird davon ausgegangen, dass Sie die Profilerstellung auf Organisations-, Ordner- oder Projektebene konfiguriert haben. Achten Sie in Ihrer Konfiguration für den Erkennungsscan darauf, dass die Aktion Datenprofilkopien in BigQuery speichern aktiviert ist. Weitere Informationen zum Erstellen einer Konfiguration für den Erkennungsscan finden Sie unter Scankonfiguration erstellen.

Die Ausgabetabelle

In diesem Dokument wird die Tabelle, die die exportierten Datenprofile enthält, als Ausgabetabelle bezeichnet.

Halten Sie die Projekt-ID, die Dataset-ID und die Tabellen-ID der Ausgabetabelle bereit. Sie benötigen sie, um die Verfahren auf dieser Seite auszuführen.

Die Ansicht latest

Wenn der Schutz sensibler Daten Datenprofile in Ihre Ausgabetabelle exportiert, wird es auch die latest Ansicht erstellt. Diese Ansicht ist eine vorgefilterte virtuelle Tabelle, die nur die neuesten Snapshots Ihrer Datenprofile enthält. Die Ansicht latest hat dasselbe Schema wie die Ausgabetabelle. Sie können die beiden also in Ihren SQL-Abfragen und Data Studio-Berichten austauschen. Die Ergebnisse können sich unterscheiden, da die Ausgabetabelle ältere Snapshots der Datenprofile enthält.

Die Ansicht latest wird am selben Speicherort wie die Ausgabetabelle gespeichert. Der Name hat folgendes Format:

OUTPUT_TABLE_latest_VERSION

Ersetzen Sie Folgendes:

  • OUTPUT_TABLE: Die ID der Tabelle, die die exportierten Daten profile enthält.
  • VERSION: Die Versionsnummer der Ansicht.

Wenn der Name Ihrer Ausgabetabelle beispielsweise table-profile ist, hat die latest Ansicht einen Namen wie table-profile_latest_v1.

Letzte Ansicht

Wenn Sie die Ansicht latest in SQL-Abfragen verwenden, geben Sie den vollständigen Namen der Ansicht an, der die Projekt-ID, die Dataset-ID, die Tabellen-ID und das Suffix enthält, z. B. myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Zwischen der Ausgabetabelle und der Ansicht latest wählen

Die Ansicht latest enthält nur die neuesten Datenprofil-Snapshots, während die Ausgabetabelle alle Datenprofil-Snapshots enthält, einschließlich veralteter Snapshots. Eine Abfrage der Ausgabetabelle kann beispielsweise mehrere Spaltendatenprofile für dieselbe Spalte zurückgeben – eines für jedes Mal, wenn die Spalte profiliert wurde.

Berücksichtigen Sie bei der Auswahl zwischen der Ausgabetabelle und der Ansicht latest in Ihren SQL-Abfragen oder Data Studio-Berichten Folgendes:

  • Die Ansicht latest ist nützlich, wenn Sie Daten-Assets haben, die neu profiliert wurden, und Sie nur die neuesten Profile sehen möchten, nicht die früheren Versionen. Sie möchten also den aktuellen Status Ihrer profilierten Daten sehen.

  • Die Ausgabetabelle ist nützlich, wenn Sie eine Verlaufsansicht Ihrer profilierten Daten erhalten möchten. Sie möchten beispielsweise feststellen, ob Ihre Organisation jemals einen bestimmten infoType gespeichert hat, oder Sie möchten die Änderungen sehen, die an einem bestimmten Datenprofil vorgenommen wurden.

SQL-Beispielabfragen

Dieser Abschnitt enthält Beispielabfragen, die Sie bei der Analyse von Datenprofilen verwenden können. Informationen zum Ausführen dieser Abfragen finden Sie unter Interaktive Abfragen ausführen.

Ersetzen Sie in den folgenden Beispielen TABLE_OR_VIEW durch eine der folgenden Optionen:

In beiden Fällen müssen Sie die Projekt-ID und die Dataset-ID angeben.

Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der latest Ansicht wählen.

Informationen zur Behebung von Fehlern finden Sie unter Fehlermeldungen.

Alle Spalten auflisten, die eine hohe Punktzahl für Freitext und Nachweise für andere infoType-Übereinstimmungen aufweisen

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`
  LEFT JOIN UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Informationen zum Beheben dieser Ergebnisse finden Sie unter Empfohlene Strategien zur Minimierung des Daten risikos.

Weitere Informationen zu den Punktzahl für Freitext und Andere infoTypes Messwerten finden Sie unter Spaltendatenprofile.

Alle Tabellen auflisten, die eine Spalte mit Kreditkartennummern enthalten

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER ist ein integrierter infoType der eine Kreditkartennummer darstellt.

Informationen zum Beheben dieser Ergebnisse finden Sie unter Empfohlene Strategien zur Minimierung des Daten risikos.

Tabellenprofile auflisten, die Spalten mit Kreditkartennummern, US-Sozialversicherungsnummern und Personennamen enthalten

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

In dieser Abfrage werden die folgenden integrierten infoTypes verwendet:

  • CREDIT_CARD_NUMBER: stellt eine Kreditkartennummer dar
  • PERSON_NAME: stellt den vollständigen Namen einer Person dar
  • US_SOCIAL_SECURITY_NUMBER: stellt eine US-Sozialversicherungsnummer dar

Informationen zum Beheben dieser Ergebnisse finden Sie unter Empfohlene Strategien zur Minimierung des Daten risikos.

Buckets auflisten, bei denen die Vertraulichkeitsstufe SENSITIVITY_HIGH ist

SELECT file_store_profile.file_store_path, file_store_profile.resource_visibility, file_store_profile.sensitivity_score
FROM `TABLE_OR_VIEW`
WHERE file_store_profile.sensitivity_score.score ='SENSITIVITY_HIGH'
;

Weitere Informationen finden Sie unter Datenprofile für Dateispeicher.

Alle gescannten Bucket-Pfade, Cluster und Dateiendungen auflisten, bei denen die Vertraulichkeitsstufe SENSITIVITY_HIGH ist

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions, file_store_profile.profile_last_generated.timestamp
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND summaries.sensitivity_score.score ='SENSITIVITY_HIGH'
GROUP BY 1, 2, 4
;

Weitere Informationen finden Sie unter Datenprofile für Dateispeicher.

Alle gescannten Bucket-Pfade, Cluster und Dateiendungen auflisten, in denen Kreditkartennummern erkannt wurden

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name='CREDIT_CARD_NUMBER'
GROUP BY 1, 2
;

CREDIT_CARD_NUMBER ist ein integrierter infoType der eine Kreditkartennummer darstellt.

Weitere Informationen finden Sie unter Datenprofile für Dateispeicher.

Alle gescannten Bucket-Pfade, Cluster und Dateiendungen auflisten, in denen eine Kreditkartennummer, ein Personenname oder eine US-Sozialversicherungsnummer erkannt wurde

SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name IN ('CREDIT_CARD_NUMBER', 'PERSON_NAME', 'US_SOCIAL_SECURITY_NUMBER')
GROUP BY 1, 2
;

In dieser Abfrage werden die folgenden integrierten infoTypes verwendet:

  • CREDIT_CARD_NUMBER: stellt eine Kreditkartennummer dar
  • PERSON_NAME: stellt den vollständigen Namen einer Person dar
  • US_SOCIAL_SECURITY_NUMBER: stellt eine US-Sozialversicherungsnummer dar

Weitere Informationen finden Sie unter Datenprofile für Dateispeicher.

Mit Datenprofilen in Data Studio arbeiten

Wenn Sie Ihre Datenprofile in Data Studio visualisieren möchten, können Sie einen vorgefertigten Bericht verwenden oder Sie können einen eigenen erstellen.

Vorgefertigten Bericht verwenden

Der Schutz sensibler Daten bietet einen vorgefertigten Data Studio-Bericht, der die umfassenden Erkenntnisse aus Datenprofilen hervorhebt. Das Dashboard für den Schutz sensibler Daten ist ein mehrseitiger Bericht, der Ihnen einen schnellen Überblick über Ihre Datenprofile bietet, einschließlich Aufschlüsselungen nach Risiko, infoType und Standort. Auf den anderen Tabs finden Sie Ansichten nach geografischer Region und Risikostufe oder Sie können bestimmte Messwerte aufrufen. Sie können diesen vorgefertigten Bericht unverändert verwenden oder ihn nach Bedarf anpassen. Dies ist die empfohlene Version des vorgefertigten Berichts.

Wenn Sie den vorgefertigten Bericht mit Ihren Daten aufrufen möchten, geben Sie die erforderlichen Werte in die folgende URL ein. Kopieren Sie dann die resultierende URL in Ihren Browser.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Ersetzen Sie Folgendes:

Es kann einige Minuten dauern, bis Data Studio den Bericht mit Ihren Daten geladen hat. Wenn Fehler auftreten oder der Bericht nicht geladen wird, finden Sie auf dieser Seite Informationen zur Fehlerbehebung.

Im folgenden Beispiel zeigt das Dashboard, dass Daten mit niedriger und hoher Vertraulichkeit in mehreren Ländern auf der ganzen Welt vorhanden sind.

Vorgefertigter Bericht

Frühere Version des vorgefertigten Berichts

Die erste Version des vorgefertigten Berichts ist weiterhin unter der folgenden Adresse verfügbar:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Bericht erstellen

Data Studio ermöglicht Ihnen die Erstellung interaktiver Berichte. In diesem Abschnitt erstellen Sie in Data Studio einen einfachen tabellarischen Bericht, der auf den Datenprofilen basiert, die in BigQuery in Ihre Ausgabetabelle exportiert wurden.

Halten Sie die Projekt-ID, die Dataset-ID und die Tabellen-ID der Ausgabetabelle oder der latest Ansicht bereit. Sie benötigen sie, um dieses Verfahren auszuführen.

In diesem Beispiel wird gezeigt, wie Sie einen Bericht mit einer Tabelle erstellen, in der jeder infoType in Ihren Datenprofilen gemeldet und seine entsprechende Häufigkeit angezeigt wird.

Im Allgemeinen fallen Kosten für die BigQuery-Nutzung an, wenn Sie über Data Studio auf BigQuery zugreifen. Weitere Informationen finden Sie unter BigQuery-Daten mit Data Studio visualisieren.

So erstellen Sie einen Bericht:

  1. Öffnen Sie Data Studio und melden Sie sich an.
  2. Klicken Sie auf Leerer Bericht.
  3. Klicken Sie auf dem Tab Datenverbindung herstellen auf die Karte BigQuery.
  4. Autorisieren Sie Data Studio für den Zugriff auf Ihre BigQuery-Projekte, wenn Sie dazu aufgefordert werden.
  5. Stellen Sie eine Verbindung zu Ihren BigQuery-Daten her:

    1. Wählen Sie unter Projekt das Projekt aus, das die Ausgabetabelle enthält. Sie können auf den Tabs Aktuelle Projekte, Meine Projekte, und Freigegebene Projekte nach dem Projekt suchen.
    2. Wählen Sie unter Dataset das Dataset aus, das die Ausgabetabelle enthält.
    3. Wählen Sie unter Tabelle entweder die Ausgabetabelle oder die latest Ansicht der Ausgabetabelle aus.

      Weitere Informationen finden Sie auf dieser Seite unter Zwischen der Ausgabetabelle und der latest Ansicht wählen.

    4. Klicken Sie auf Hinzufügen.

    5. Klicken Sie im angezeigten Dialogfeld auf Zum Bericht hinzufügen.

  6. So fügen Sie eine Tabelle hinzu, in der jeder gemeldete infoType und seine entsprechende Häufigkeit (Datensatzanzahl) angezeigt werden:

    1. Klicken Sie auf Diagramm hinzufügen.
    2. Wählen Sie einen Tabellenstil aus.
    3. Klicken Sie auf den Bereich, in dem Sie das Diagramm positionieren möchten.

      Das Diagramm wird im Tabellenformat angezeigt.

    4. Ändern Sie die Größe der Tabelle nach Bedarf.

      Solange die Tabelle ausgewählt ist, werden ihre Eigenschaften im Bereich Diagramm angezeigt.

    5. Entfernen Sie im Bereich Diagramm auf dem Tab Einrichtung alle vorausgewählten Dimensionen und Messwerte.

    6. Fügen Sie unter Dimension column_profile.column_info_type.info_type.name oder file_store_profile.file_cluster_summaries.file_store_info_type_summaries.info_type.name hinzu.

      Diese Beispiele liefern Daten auf Spalten- und Dateiclusterebene. Sie können auch andere Dimensionen ausprobieren. Sie können beispielsweise Dimensionen auf Tabellen- und Bucketebene verwenden.

    7. Fügen Sie unter Messwert die Option Datensatzanzahl hinzu.

    Die resultierende Tabelle sieht etwa so aus:

    Eine Tabelle mit den erkannten infoTypes und den entsprechenden Anzahl der Datensätze

Weitere Informationen zu Tabellen in Data Studio.

Fehler mit dem vorgefertigten Bericht beheben

Wenn beim Laden des vorgefertigten Berichts Fehler, fehlende Steuerelemente oder fehlende Diagramme angezeigt werden, prüfen Sie, ob der vorgefertigte Bericht die neuesten Felder verwendet:

  • Wenn Ihr vorgefertigter Bericht mit der Ausgabetabelle verbunden ist, prüfen Sie, ob diese Tabelle an eine aktive Konfiguration für den Erkennungsscan angehängt ist. Informationen zum Aufrufen der Einstellungen Ihrer Scankonfigurationen finden Sie unter Scankonfiguration aufrufen.

  • Wenn Ihr vorgefertigter Bericht mit der Ansicht latest verbunden ist, prüfen Sie, ob diese Ansicht noch in BigQuery vorhanden ist. Wenn sie vorhanden ist, versuchen Sie, eine Änderung an der Ansicht vorzunehmen. Alternativ können Sie eine Kopie der Ansicht erstellen und den vorgefertigten Bericht mit dieser Kopie verbinden. Weitere Informationen zur Ansicht latest finden Sie auf dieser Seite unter Die Ansicht latest.

Wenn nach diesen Schritten weiterhin Fehler auftreten, wenden Sie sich an den Cloud Customer Care.

Nächste Schritte

Informationen zu Maßnahmen, die Sie ergreifen können, um Ergebnisse aus Datenprofilen zu beheben