Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Oscuramento dell'audio di Customer Experience Insights

La redazione audio di Customer Experience Insights è un framework open source che rileva e redige automaticamente le informazioni sensibili che consentono l'identificazione personale (PII) dalle registrazioni audio. Fornisce una soluzione sicura, scalabile e personalizzabile per le organizzazioni che devono elaborare dati audio mantenendo la conformità alle normative sulla privacy.

Questa soluzione funge da middleware tra i punti di importazione audio non elaborato e le piattaforme di analisi o di archiviazione a lungo termine. Elabora automaticamente i file audio per rimuovere i dati sensibili, ad esempio:

Numeri di carte di credito
Codici fiscali
Numeri di telefono
Indirizzi email
Entità personalizzate definite dalla tua organizzazione

Se oscuri queste informazioni prima dell'archiviazione permanente, ti assicuri che i tuoi data lake e strumenti di analisi rimangano privi di dati tossici, riducendo il rischio di conformità e l'esposizione dei dati.

Funzionalità principali

Oscuramento automatico: utilizza Speech-to-Text e Sensitive Data Protection per trascrivere, identificare e oscurare i segmenti sensibili dei file audio.
Supporto del doppio trigger: le opzioni di deployment flessibili consentono di attivare la redazione immediatamente dopo il caricamento del file in Cloud Storage o in un secondo momento dopo l'elaborazione da parte di Customer Experience Insights.
Sicurezza aziendale: progettata con un'architettura "sicura per impostazione predefinita", la redazione audio di Customer Experience Insights supporta VPC privati, Controlli di servizio VPC e controlli di sicurezza della supply chain per impedire l'accesso non autorizzato e la manomissione del codice.
Scalabilità: basata su Dataflow, la pipeline viene scalata automaticamente per gestire enormi volumi di dati audio, il che la rende adatta ai contact center ad alto rendimento.
Output verificabile: produce sia il file audio modificato sia una trascrizione della modifica, consentendo la verifica e le tracce di controllo.

Come funziona

La soluzione segue una pipeline di elaborazione lineare:

Importazione e attivazione:
- Opzione A (diretta): un file audio viene caricato in un bucket Cloud Storage "raw". Un trigger Cloud Run avvia immediatamente la pipeline.
- Opzione B (approfondimenti): CX Insights elabora una conversazione. Un messaggio Pub/Sub attiva il servizio Cloud Run, che a sua volta avvia la pipeline.
Elaborazione (Dataflow). Il worker Dataflow esegue le seguenti operazioni:
1. Recupera il file audio.
2. Invia l'audio a Speech-to-Text per generare una trascrizione con timestamp.
3. Invia la trascrizione a Sensitive Data Protection per identificare gli offset temporali delle informazioni sensibili.
4. Utilizza ffmpeg per silenziare i segmenti audio corrispondenti alle PII identificate.
Output. Una funzione Cloud Run svolge le seguenti operazioni:
1. (Facoltativo) Sposta l'audio grezzo originale in un bucket "archivio" sicuro.
2. Scrive l'audio oscurato nella posizione originale o in un bucket di output specificato, sostituendo i segmenti sensibili con il silenzio o un tono.

Inizia

Per utilizzare questa soluzione, devi disporre di un progetto Google Cloud con la fatturazione abilitata.

Prerequisiti

Google Cloud progetto
gcloud CLI installata e autenticata
Abilitazione e accesso ai servizi Dataflow, Speech-to-Text e Sensitive Data Protection Google Cloud .

Accesso e deployment

Il codice sorgente completo e le istruzioni per il deployment sono disponibili nel repository GitHub.