Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Masquage de l'audio dans Insights sur l'expérience client

Le masquage audio des insights sur l'expérience client est un framework Open Source qui détecte et masque automatiquement les informations personnelles sensibles dans les enregistrements audio. Il s'agit d'une solution sécurisée, évolutive et personnalisable pour les organisations qui doivent traiter des données audio tout en respectant les réglementations sur la confidentialité.

Cette solution sert de middleware entre vos points d'ingestion audio bruts et vos plates-formes de stockage ou d'analyse à long terme. Il traite automatiquement les fichiers audio pour supprimer les données sensibles telles que :

Numéros de cartes de crédit
votre numéro de sécurité sociale ;
Numéros de téléphone
Adresses e-mail
Entités personnalisées définies par votre organisation

En masquant ces informations avant le stockage permanent, vous vous assurez que vos lacs de données et vos outils d'analyse restent exempts de données toxiques, ce qui réduit les risques de non-conformité et l'exposition des données.

Principales fonctionnalités

Masquage automatisé : utilise Speech-to-Text et Sensitive Data Protection pour transcrire, identifier et masquer les segments sensibles des fichiers audio.
Prise en charge du double déclencheur : les options de déploiement flexibles vous permettent de déclencher la suppression des informations immédiatement après l'importation du fichier dans Cloud Storage ou en aval après le traitement par Customer Experience Insights.
Sécurité pour les entreprises : conçue avec une architecture "sécurisée par défaut", la fonctionnalité de masquage audio de Customer Experience Insights est compatible avec les VPC privés, VPC Service Controls et les vérifications de sécurité de la chaîne d'approvisionnement pour empêcher tout accès non autorisé et toute falsification du code.
Évolutivité : basé sur Dataflow, le pipeline s'adapte automatiquement pour gérer de grands volumes de données audio, ce qui le rend adapté aux centres de contact à haut débit.
Sortie vérifiable : produit à la fois le fichier audio masqué et une transcription de la censure, ce qui permet la vérification et les pistes d'audit.

Fonctionnement

La solution suit un pipeline de traitement linéaire :

Ingestion et déclenchement :
- Option A (directe) : un fichier audio est importé dans un bucket Cloud Storage "brut". Un déclencheur Cloud Run lance immédiatement le pipeline.
- Option B (Insights) : CX Insights traite une conversation. Un message Pub/Sub déclenche le service Cloud Run, qui lance ensuite le pipeline.
Traitement (Dataflow) Le nœud de calcul Dataflow effectue les opérations suivantes :
1. Récupère le fichier audio.
2. Envoi du contenu audio à Speech-to-Text pour générer une transcription horodatée.
3. Envoie la transcription à Sensitive Data Protection pour identifier les codes temporels des informations sensibles.
4. Utilise ffmpeg pour couper le son des segments audio correspondant aux informations permettant d'identifier personnellement l'utilisateur.
Sortie. Une fonction Cloud Run effectue les opérations suivantes :
1. Facultatif : Déplace l'audio brut d'origine vers un bucket d'archive sécurisé.
2. Réécrit l'audio masqué à l'emplacement d'origine ou dans un bucket de sortie spécifié, en remplaçant les segments sensibles par du silence ou une tonalité.

Commencer

Pour utiliser cette solution, vous avez besoin d'un projet Google Cloud pour lequel la facturation est activée.

Prérequis

ProjetGoogle Cloud
gcloud CLI installée et authentification effectuée
Activation et accès aux services Dataflow, Speech-to-Text et Protection des données sensibles Google Cloud

Accès et déploiement

Le code source complet et les instructions de déploiement sont disponibles dans le dépôt GitHub.