Audio-Schwärzung in Customer Experience Insights

Die Audio-Entfernung von Customer Experience Insights ist ein Open-Source-Framework, mit dem sensible personenidentifizierbare Informationen (PII) in Audioaufzeichnungen automatisch erkannt und entfernt werden. Sie bietet eine sichere, skalierbare und anpassbare Lösung für Organisationen, die Audiodaten verarbeiten müssen und gleichzeitig Datenschutzbestimmungen einhalten möchten.

Diese Lösung fungiert als Middleware zwischen Ihren Rohaudio-Aufnahmepunkten und Ihren langfristigen Speicher- oder Analyseplattformen. Das Tool verarbeitet Audiodateien automatisch, um sensible Daten wie die folgenden zu entfernen:

  • Kreditkartennummern
  • Sozialversicherungsnummern
  • Telefonnummern
  • E‑Mail-Adressen
  • Von Ihrer Organisation definierte benutzerdefinierte Entitäten

Wenn Sie diese Informationen vor der dauerhaften Speicherung entfernen, bleiben Ihre Data Lakes und Analysetools frei von schädlichen Daten. So verringern Sie das Compliance-Risiko und die Datenoffenlegung.

Wichtige Features

  • Automatisches Entfernen: Speech-to-Text und Sensitive Data Protection werden verwendet, um sensible Segmente aus Audiodateien zu transkribieren, zu identifizieren und zu entfernen.
  • Unterstützung für Dual-Trigger: Dank flexibler Bereitstellungsoptionen können Sie die Schwärzung entweder sofort beim Hochladen der Datei in Cloud Storage oder später nach der Verarbeitung durch Customer Experience Insights auslösen.
  • Sicherheit für Unternehmen: Die Audio-Anonymisierung von Customer Experience Insights wurde mit einer „standardmäßig sicher“-Architektur entwickelt und unterstützt private VPCs, VPC Service Controls und Sicherheitsprüfungen der Lieferkette, um unbefugten Zugriff und Manipulationen am Code zu verhindern.
  • Skalierbarkeit: Die Pipeline basiert auf Dataflow und wird automatisch skaliert, um große Mengen an Audiodaten zu verarbeiten. Sie eignet sich daher für Contact Center mit hohem Durchsatz.
  • Nachvollziehbare Ausgabe: Es werden sowohl die bearbeitete Audiodatei als auch ein Transkript der Bearbeitung erstellt, was die Überprüfung und den Audit-Trail ermöglicht.

Funktionsweise

Die Lösung folgt einer linearen Verarbeitungspipeline:

  1. Aufnahme und Triggerung:

    • Option A (Direkt): Eine Audiodatei wird in einen „rohen“ Cloud Storage-Bucket hochgeladen. Ein Cloud Run-Trigger startet die Pipeline sofort.
    • Option B (Statistiken): CX Insights verarbeitet eine Unterhaltung. Eine Pub/Sub-Nachricht löst den Cloud Run-Dienst aus, der dann die Pipeline startet.
  2. Verarbeitung (Dataflow). Der Dataflow-Worker führt folgende Schritte aus:

    1. Ruft die Audiodatei ab.
    2. Sendet das Audio an Speech-to-Text, um ein Transkript mit Zeitstempeln zu generieren.
    3. Sendet das Transkript an Sensitive Data Protection, um die Zeitversätze sensibler Informationen zu ermitteln.
    4. Verwendet ffmpeg, um die Audiosegmente stummzuschalten, die den identifizierten personenidentifizierbaren Informationen entsprechen.
  3. Ausgabe: Eine Cloud Run-Funktion führt folgende Aktionen aus:

    1. Optional: Verschiebt den ursprünglichen Roh-Audio-Stream in einen sicheren „Archiv“-Bucket.
    2. Die bearbeitete Audioaufnahme wird an den ursprünglichen Speicherort oder in einen angegebenen Ausgabebucket geschrieben. Die vertraulichen Segmente werden durch Stille oder einen Ton ersetzt.

Jetzt starten

Für diese Lösung benötigen Sie ein Google Cloud -Projekt mit aktivierter Abrechnung.

Vorbereitung

  • Google Cloud -Projekt
  • gcloud-CLI installiert und authentifiziert
  • Aktivierung und Zugriff auf die Dienste Dataflow, Speech-to-Text und Sensitive Data Protection Google Cloud .

Zugriff und Bereitstellung

Der vollständige Quellcode und die Bereitstellungsanleitung sind im GitHub-Repository verfügbar.