Le masquage audio des insights sur l'expérience client est un framework Open Source qui détecte et masque automatiquement les informations personnelles sensibles dans les enregistrements audio. Il s'agit d'une solution sécurisée, évolutive et personnalisable pour les organisations qui doivent traiter des données audio tout en respectant les réglementations sur la confidentialité.
Cette solution sert de middleware entre vos points d'ingestion audio bruts et vos plates-formes de stockage ou d'analyse à long terme. Il traite automatiquement les fichiers audio pour supprimer les données sensibles telles que :
- Numéros de cartes de crédit
- votre numéro de sécurité sociale ;
- Numéros de téléphone
- Adresses e-mail
- Entités personnalisées définies par votre organisation
En masquant ces informations avant le stockage permanent, vous vous assurez que vos lacs de données et vos outils d'analyse restent exempts de données toxiques, ce qui réduit les risques de non-conformité et l'exposition des données.
Principales fonctionnalités
- Masquage automatisé : utilise Speech-to-Text et Sensitive Data Protection pour transcrire, identifier et masquer les segments sensibles des fichiers audio.
- Prise en charge du double déclencheur : les options de déploiement flexibles vous permettent de déclencher la suppression des informations immédiatement après l'importation du fichier dans Cloud Storage ou en aval après le traitement par Customer Experience Insights.
- Sécurité pour les entreprises : conçue avec une architecture "sécurisée par défaut", la fonctionnalité de masquage audio de Customer Experience Insights est compatible avec les VPC privés, VPC Service Controls et les vérifications de sécurité de la chaîne d'approvisionnement pour empêcher tout accès non autorisé et toute falsification du code.
- Évolutivité : basé sur Dataflow, le pipeline s'adapte automatiquement pour gérer de grands volumes de données audio, ce qui le rend adapté aux centres de contact à haut débit.
- Sortie vérifiable : produit à la fois le fichier audio masqué et une transcription de la censure, ce qui permet la vérification et les pistes d'audit.
Fonctionnement
La solution suit un pipeline de traitement linéaire :
Ingestion et déclenchement :
- Option A (directe) : un fichier audio est importé dans un bucket Cloud Storage "brut". Un déclencheur Cloud Run lance immédiatement le pipeline.
- Option B (Insights) : CX Insights traite une conversation. Un message Pub/Sub déclenche le service Cloud Run, qui lance ensuite le pipeline.
Traitement (Dataflow) Le nœud de calcul Dataflow effectue les opérations suivantes :
- Récupère le fichier audio.
- Envoi du contenu audio à Speech-to-Text pour générer une transcription horodatée.
- Envoie la transcription à Sensitive Data Protection pour identifier les codes temporels des informations sensibles.
- Utilise
ffmpegpour couper le son des segments audio correspondant aux informations permettant d'identifier personnellement l'utilisateur.
Sortie. Une fonction Cloud Run effectue les opérations suivantes :
- Facultatif : Déplace l'audio brut d'origine vers un bucket d'archive sécurisé.
- Réécrit l'audio masqué à l'emplacement d'origine ou dans un bucket de sortie spécifié, en remplaçant les segments sensibles par du silence ou une tonalité.
Commencer
Pour utiliser cette solution, vous avez besoin d'un projet Google Cloud pour lequel la facturation est activée.
Prérequis
- ProjetGoogle Cloud
gcloudCLI installée et authentification effectuée- Activation et accès aux services Dataflow, Speech-to-Text et Protection des données sensibles Google Cloud
Accès et déploiement
Le code source complet et les instructions de déploiement sont disponibles dans le dépôt GitHub.