Vertrauliche Daten entfernen

In dieser Anleitung erfahren Sie, wie Sie mit dem Cloud Data Fusion-Plug-in für Cloud DLP vertrauliche Daten entfernen.

Szenario

Stellen Sie sich das folgende Szenario vor, in dem einige vertrauliche Kundendaten entfernt werden müssen:

Ihr Supportteam dokumentiert die Details jedes Supportfalls, der in einem Support-Ticket bearbeitet wird. Alle Informationen im Support-Ticket werden in eine CSV-Datei geladen. Die Supporttechniker sollten keine Kundendaten dokumentieren, die als vertraulich eingestuft werden, manchmal jedoch versehentlich.

Sie müssen die CSV-Datei durchgehen und alle Telefonnummern ausblenden. Erstellen Sie eine Cloud Data Fusion-Pipeline, die vertrauliche Kundendaten mithilfe des Cloud DLP-Plug-ins entfernt.

In dieser Anleitung erstellen Sie eine Pipeline, die Folgendes ausführt:

  • Entfernt Telefonnummern von Kunden durch Maskieren mit dem #-Zeichen.
  • Speichert die maskierten vertraulichen Daten und die nicht vertraulichen Daten in einem Cloud Storage-Bucket.

Pipeline erstellen

Erstellen Sie eine Pipeline zur Entfernung vertraulicher Kundendaten. Die von Ihnen erstellte Pipeline führt folgende Aufgaben aus:

  • Die Eingabedaten werden mit dem Cloud Storage-Quell-Plug-in gelesen.
  • Stellt das Cloud DLP-Plug-in vom Hub bereit.
  • Schreibt die Ausgabedaten mit einem Cloud Storage-Senken-Plug-in.

Kundendaten laden

In dieser Anleitung wird das Eingabe-Dataset CallCenterRecords.csv verwendet, das in einem öffentlich verfügbaren Cloud Storage-Bucket bereitgestellt wird.

  1. Öffnen Sie Ihre Cloud Data Fusion-Instanz und klicken Sie auf  Menü> Studio.

  2. Klicken Sie im Menü Quelle auf das Plug-in Cloud Storage.

    Wählen Sie das Plug‑in aus.

  3. Klicken Sie auf dem Knoten Cloud Storage auf Attribute.

  4. Geben Sie im Feld Referenzname einen Namen ein.

  5. Geben Sie im Feld Pfad gs://datafusion-sample-datasets/CallCenterRecords.csv ein.

  6. Wählen Sie im Feld Format die Option CSV aus.

  7. Löschen Sie im Ausgabeschema die Felder offset und body. Klicken Sie auf  Hinzufügen und geben Sie die folgenden Felder ein:

    • Datum
    • Bank
    • State
    • Zip
    • Hinweise

    Geben Sie Quell-Properties ein.

  8. Klicken Sie auf Validieren, um nach Fehlern zu suchen.

  9. Klicken Sie auf Schließen.

Entfernen Sie sensible Daten

Das Cloud DLP Redact-Plug-in identifiziert vertrauliche Datensätze in Ihrem Eingabedatenstrom und wendet von Ihnen definierte Transformationen auf diese Datensätze an. Ein Datensatz gilt als vertraulich, wenn er mit vordefinierten Cloud DLP-Filtern oder einer von Ihnen definierten benutzerdefinierten Vorlage übereinstimmt.

In dieser Anleitung möchten Sie die Telefonnummern von Kunden entfernen, die einige technische Mitarbeiter in Ihrem Team versehentlich bemerkt haben. Sie haben die vertraulichen Informationen im Abschnitt Hinweise der Support-Tickets eingegeben, der in der CSV-Datei in der Spalte Hinweise angezeigt wird. Sie erstellen eine benutzerdefinierte Cloud DLP-Vorlage und geben dann die Vorlagen-ID im Menü „Eigenschaften“ des Plug-ins an.

Cloud DLP-Plug-in bereitstellen

  1. Klicken Sie in Ihrer Cloud Data Fusion-Instanz auf Hub.

  2. Klicken Sie auf das Cloud DLP-Plug-in.

  3. Klicken Sie auf Bereitstellen.

  4. Klicken Sie auf Beenden.

  5. Klicken Sie auf  Schließen, um das Cloud DLP-Dialogfeld zu schließen.

  6. Klicken Sie auf  Schließen, um den Hub zu verlassen.

Benutzerdefinierte Vorlage erstellen

  1. Rufen Sie in der Google Cloud Console die Seite „Cloud DLP“ auf.

    Zu Cloud DLP

  2. Wählen Sie im Menü Erstellen die Option Vorlage aus.Image

  3. Geben Sie im Feld Vorlagen-ID eine ID für Ihre Vorlage ein.

  4. Klicken Sie auf Weiter.

  5. Klicken Sie im Feld Erkennung konfigurieren auf Infotypen verwalten.

  6. Verwenden Sie auf dem Tab Integriert den Filter, um nach "Telefonnummer" zu suchen.

    Filter

  7. Wählen Sie PHONE_NUMBER aus.

  8. Klicken Sie auf Fertig> Erstellen.

Weitere Informationen zum Thema Cloud DLP-Vorlagen erstellen

Cloud DLP-Transformation „Redact“ anwenden

  1. Rufen Sie die Seite Studio in Cloud Data Fusion auf und klicken Sie auf das Menü Transformieren, um es zu maximieren.

  2. Klicken Sie auf das Cloud DLP-Plug-in Redact.

    Klicken Sie auf das Plug-in, um es Ihrer Pipeline hinzuzufügen.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Cloud Storage zum Knoten Redact.

    Verbinden Sie die beiden Knoten.

  4. Halten Sie den Mauszeiger über den Knoten Redact und klicken Sie auf Attribute.

    1. Setzen Sie Benutzerdefinierte Vorlage auf Yes.

    2. Geben Sie im Feld Template ID die Vorlagen-ID der von Ihnen erstellten benutzerdefinierten Vorlage ein.

    3. Wenden Sie im Feld Abgleich die Option Masking auf die Custom template in Notes an.

    4. Geben Sie im Feld Masking Character (Maskierungszeichen) # ein.

      Maske

    5. Klicken Sie auf Validieren, um nach Fehlern zu suchen.

    6. Klicken Sie auf Schließen.

Ausgabedaten speichern

Speichern Sie die Ergebnisse Ihrer Pipeline in einer Cloud Storage-Datei.

  1. Klicken Sie auf der Seite Studio auf das Menü Sink, um es zu maximieren.

  2. Klicken Sie auf Cloud Storage.

  3. Ziehen Sie einen Verbindungspfeil vom Knoten Redact zum Knoten Cloud Storage2.

    Verbinden Sie den Knoten „Redact“ mit dem zweiten Cloud Storage-Knoten.

  4. Halten Sie den Mauszeiger über den Knoten Cloud Storage2 und klicken Sie auf Attribute.

    1. Geben Sie im Feld Referenzname einen Namen ein.

    2. Geben Sie im Feld Pfad den Pfad eines Cloud Storage-Bucket ein, in dem die Pipelineergebnisse gespeichert werden sollen. Cloud Data Fusion erstellt den Bucket für Sie. Beachten Sie die Benennungsrichtlinien für Buckets.

    3. Wählen Sie im Feld Format die Option CSV aus.

    4. Klicken Sie auf Validieren, um sicherzustellen, dass keine Fehler vorliegen.

    5. Klicken Sie auf Schließen.

Pipeline im Vorschaumodus ausführen

Führen Sie die Pipeline im Vorschaumodus aus, bevor Sie sie bereitstellen.

  1. Klicken Sie auf Preview und dann auf Run.

    Pipeline ausführen.

    Wenn Sie auf Ausführen klicken, wird der Pipelinestatus angezeigt, der mit Wird gestartet beginnt, dann zu Beenden und dann zu Ausführen wechselt.

  2. Klicken Sie nach Abschluss des Vorschaudurchlaufs auf dem Redact-Knoten auf Vorschau der Daten anzeigen, um eine Gegenüberstellung der Eingabe- und Ausgabedaten anzusehen. Prüfen Sie, ob Telefonnummern mit dem Zeichen # maskiert wurden.

    Prüfen Sie, ob die Telefonnummern maskiert sind.

Einen weiteren Datentyp entfernen

Beim Untersuchen der Ergebnisse des Vorschaudurchlaufs sehen Sie, dass die Spalte Hinweise weiterhin vertrauliche Informationen enthält, nämlich E-Mail-Adressen. Gehen Sie zurück und bearbeiten Sie die Cloud DLP-Vorlage, um auch E-Mail-Adressen zu entfernen.

  1. Rufen Sie in der Google Cloud Console die Seite „Cloud DLP“ auf.

    Zur Seite „Cloud DLP“

  2. Wählen Sie auf dem Tab Konfiguration Ihre Vorlage aus.

  3. Klicken Sie auf Bearbeiten.

  4. Klicken Sie auf Infotypen verwalten.

  5. Verwenden Sie auf dem Tab Built-in den Filter, um nach "OR" "email address" zu suchen.

    Filter

  6. Wählen Sie alle aus und klicken Sie auf Done.

  7. Klicken Sie auf Speichern.

  8. Führen Sie Ihre Pipeline noch einmal im Vorschaumodus aus. Cloud Data Fusion verwendet automatisch die aktualisierte Cloud DLP-Vorlage.

  9. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert sind.

    Prüfen Sie, ob die Daten maskiert sind.

Pipeline bereitstellen und ausführen

  1. Vergewissern Sie sich, dass der Previewmodus deaktiviert ist.

  2. Klicken Sie auf Speichern. Wenn Sie auf Save klicken, werden Sie aufgefordert, der Pipeline einen Namen zu geben. Klicken Sie dann auf OK.

  3. Klicken Sie auf Bereitstellen.

  4. Klicken Sie nach Abschluss der Bereitstellung auf Ausführen. Die Ausführung der Pipeline kann einige Minuten dauern. In der Zwischenzeit können Sie den Status der Pipelineübergang von Bereitstellung, Start und Aktiv zu Aufheben der Bereitstellung in Erfolgreich verfolgen.

Ergebnisse aufrufen

  1. Rufen Sie in der Google Cloud Console die Seite „Cloud Storage“ auf.

    Cloud Storage aufrufen

  2. Navigieren Sie im Storage-Browser zum Senken-Cloud Storage-Bucket, den Sie in den Attributen des Senken-Cloud Storage-Plug-ins angegeben haben.

  3. Klicken Sie unter Link-URL auf den Link zum Herunterladen der CSV-Datei mit den Ergebnissen. Prüfen Sie, ob die Telefonnummern und E-Mail-Adressen mit dem Zeichen # maskiert sind.

    Prüfen Sie, ob die Daten maskiert sind.