La redazione audio di Customer Experience Insights è un framework open source che rileva e redige automaticamente le informazioni sensibili che consentono l'identificazione personale (PII) dalle registrazioni audio. Fornisce una soluzione sicura, scalabile e personalizzabile per le organizzazioni che devono elaborare dati audio mantenendo la conformità alle normative sulla privacy.
Questa soluzione funge da middleware tra i punti di importazione audio non elaborato e le piattaforme di analisi o di archiviazione a lungo termine. Elabora automaticamente i file audio per rimuovere i dati sensibili, ad esempio:
- Numeri di carte di credito
- Codici fiscali
- Numeri di telefono
- Indirizzi email
- Entità personalizzate definite dalla tua organizzazione
Se oscuri queste informazioni prima dell'archiviazione permanente, ti assicuri che i tuoi data lake e strumenti di analisi rimangano privi di dati tossici, riducendo il rischio di conformità e l'esposizione dei dati.
Funzionalità principali
- Oscuramento automatico: utilizza Speech-to-Text e Sensitive Data Protection per trascrivere, identificare e oscurare i segmenti sensibili dei file audio.
- Supporto del doppio trigger: le opzioni di deployment flessibili consentono di attivare la redazione immediatamente dopo il caricamento del file in Cloud Storage o in un secondo momento dopo l'elaborazione da parte di Customer Experience Insights.
- Sicurezza aziendale: progettata con un'architettura "sicura per impostazione predefinita", la redazione audio di Customer Experience Insights supporta VPC privati, Controlli di servizio VPC e controlli di sicurezza della supply chain per impedire l'accesso non autorizzato e la manomissione del codice.
- Scalabilità: basata su Dataflow, la pipeline viene scalata automaticamente per gestire enormi volumi di dati audio, il che la rende adatta ai contact center ad alto rendimento.
- Output verificabile: produce sia il file audio modificato sia una trascrizione della modifica, consentendo la verifica e le tracce di controllo.
Come funziona
La soluzione segue una pipeline di elaborazione lineare:
Importazione e attivazione:
- Opzione A (diretta): un file audio viene caricato in un bucket Cloud Storage "raw". Un trigger Cloud Run avvia immediatamente la pipeline.
- Opzione B (approfondimenti): CX Insights elabora una conversazione. Un messaggio Pub/Sub attiva il servizio Cloud Run, che a sua volta avvia la pipeline.
Elaborazione (Dataflow). Il worker Dataflow esegue le seguenti operazioni:
- Recupera il file audio.
- Invia l'audio a Speech-to-Text per generare una trascrizione con timestamp.
- Invia la trascrizione a Sensitive Data Protection per identificare gli offset temporali delle informazioni sensibili.
- Utilizza
ffmpegper silenziare i segmenti audio corrispondenti alle PII identificate.
Output. Una funzione Cloud Run svolge le seguenti operazioni:
- (Facoltativo) Sposta l'audio grezzo originale in un bucket "archivio" sicuro.
- Scrive l'audio oscurato nella posizione originale o in un bucket di output specificato, sostituendo i segmenti sensibili con il silenzio o un tono.
Inizia
Per utilizzare questa soluzione, devi disporre di un progetto Google Cloud con la fatturazione abilitata.
Prerequisiti
- Google Cloud progetto
gcloudCLI installata e autenticata- Abilitazione e accesso ai servizi Dataflow, Speech-to-Text e Sensitive Data Protection Google Cloud .
Accesso e deployment
Il codice sorgente completo e le istruzioni per il deployment sono disponibili nel repository GitHub.