Oscuramento dell'audio di Customer Experience Insights

La redazione audio di Customer Experience Insights è un framework open source che rileva e redige automaticamente le informazioni sensibili che consentono l'identificazione personale (PII) dalle registrazioni audio. Fornisce una soluzione sicura, scalabile e personalizzabile per le organizzazioni che devono elaborare dati audio mantenendo la conformità alle normative sulla privacy.

Questa soluzione funge da middleware tra i punti di importazione audio non elaborato e le piattaforme di analisi o di archiviazione a lungo termine. Elabora automaticamente i file audio per rimuovere i dati sensibili, ad esempio:

  • Numeri di carte di credito
  • Codici fiscali
  • Numeri di telefono
  • Indirizzi email
  • Entità personalizzate definite dalla tua organizzazione

Se oscuri queste informazioni prima dell'archiviazione permanente, ti assicuri che i tuoi data lake e strumenti di analisi rimangano privi di dati tossici, riducendo il rischio di conformità e l'esposizione dei dati.

Funzionalità principali

  • Oscuramento automatico: utilizza Speech-to-Text e Sensitive Data Protection per trascrivere, identificare e oscurare i segmenti sensibili dei file audio.
  • Supporto del doppio trigger: le opzioni di deployment flessibili consentono di attivare la redazione immediatamente dopo il caricamento del file in Cloud Storage o in un secondo momento dopo l'elaborazione da parte di Customer Experience Insights.
  • Sicurezza aziendale: progettata con un'architettura "sicura per impostazione predefinita", la redazione audio di Customer Experience Insights supporta VPC privati, Controlli di servizio VPC e controlli di sicurezza della supply chain per impedire l'accesso non autorizzato e la manomissione del codice.
  • Scalabilità: basata su Dataflow, la pipeline viene scalata automaticamente per gestire enormi volumi di dati audio, il che la rende adatta ai contact center ad alto rendimento.
  • Output verificabile: produce sia il file audio modificato sia una trascrizione della modifica, consentendo la verifica e le tracce di controllo.

Come funziona

La soluzione segue una pipeline di elaborazione lineare:

  1. Importazione e attivazione:

    • Opzione A (diretta): un file audio viene caricato in un bucket Cloud Storage "raw". Un trigger Cloud Run avvia immediatamente la pipeline.
    • Opzione B (approfondimenti): CX Insights elabora una conversazione. Un messaggio Pub/Sub attiva il servizio Cloud Run, che a sua volta avvia la pipeline.
  2. Elaborazione (Dataflow). Il worker Dataflow esegue le seguenti operazioni:

    1. Recupera il file audio.
    2. Invia l'audio a Speech-to-Text per generare una trascrizione con timestamp.
    3. Invia la trascrizione a Sensitive Data Protection per identificare gli offset temporali delle informazioni sensibili.
    4. Utilizza ffmpeg per silenziare i segmenti audio corrispondenti alle PII identificate.
  3. Output. Una funzione Cloud Run svolge le seguenti operazioni:

    1. (Facoltativo) Sposta l'audio grezzo originale in un bucket "archivio" sicuro.
    2. Scrive l'audio oscurato nella posizione originale o in un bucket di output specificato, sostituendo i segmenti sensibili con il silenzio o un tono.

Inizia

Per utilizzare questa soluzione, devi disporre di un progetto Google Cloud con la fatturazione abilitata.

Prerequisiti

  • Google Cloud progetto
  • gcloud CLI installata e autenticata
  • Abilitazione e accesso ai servizi Dataflow, Speech-to-Text e Sensitive Data Protection Google Cloud .

Accesso e deployment

Il codice sorgente completo e le istruzioni per il deployment sono disponibili nel repository GitHub.