Customer Experience Insights の音声秘匿化は、音声録音から個人を特定できる機密情報(PII)を自動的に検出して秘匿化するオープンソースのフレームワークです。プライバシーに関する規則を遵守しながら音声データを処理する必要がある組織向けに、安全でスケーラブルかつカスタマイズ可能なソリューションを提供します。
このソリューションは、未加工の音声取り込みポイントと長期保存または分析プラットフォームの間のミドルウェアとして機能します。音声ファイルは自動的に処理され、次のようなセンシティブ データが削除されます。
- クレジット カード番号
- 社会保障番号
- 電話番号
- メール アドレス
- 組織によって定義されたカスタム エンティティ
この情報を永続ストレージに保存する前に編集することで、データレイクと分析ツールに有害なデータが残らないようにし、コンプライアンス リスクとデータ漏洩を軽減できます。
主な機能
- 自動秘匿化: Speech-to-Text と Sensitive Data Protection を使用して、音声ファイルを文字起こしし、機密性の高いセグメントを特定して秘匿化します。
- デュアル トリガーのサポート: 柔軟なデプロイ オプションにより、Cloud Storage へのファイルのアップロード直後、または Customer Experience Insights による処理後のダウンストリームで、編集をトリガーできます。
- エンタープライズ セキュリティ: 「デフォルトで安全」なアーキテクチャで設計された Customer Experience Insights の音声編集は、プライベート VPC、VPC Service Controls、サプライ チェーンのセキュリティ チェックをサポートし、不正アクセスやコードの改ざんを防ぎます。
- スケーラビリティ: Dataflow を基盤として構築されたパイプラインは、大量の音声データを処理するために自動的にスケーリングされるため、スループットの高いコンタクト センターに適しています。
- 検証可能な出力: 編集された音声ファイルと編集された文字起こしの両方を生成し、検証と監査証跡を可能にします。
仕組み
このソリューションは、線形処理パイプラインに従います。
取り込みとトリガー:
- オプション A(直接): 音声ファイルが「raw」Cloud Storage バケットにアップロードされます。Cloud Run トリガーは、パイプラインを直ちに起動します。
- オプション B(分析情報): CX インサイトが会話を処理します。Pub/Sub メッセージが Cloud Run サービスをトリガーし、パイプラインが起動します。
処理(Dataflow)。Dataflow ワーカーは次の処理を行います。
- 音声ファイルを取得します。
- 音声を Speech-to-Text に送信して、タイムスタンプ付きの文字起こしを生成します。
- 文字起こしを Sensitive Data Protection に送信して、機密情報の時間オフセットを特定します。
ffmpegを使用して、特定された PII に対応する音声セグメントをミュートします。
出力。Cloud Run functions は次の処理を行います。
- 省略可: 元の未加工の音声を安全な「アーカイブ」バケットに移動します。
- 編集された音声を元の場所または指定された出力バケットに書き戻し、機密情報を含むセグメントを無音またはトーンに置き換えます。
使ってみる
このソリューションを使用するには、課金が有効になっている Google Cloud プロジェクトが必要です。
前提条件
- Google Cloud プロジェクト
gcloudCLI がインストールされ、認証されている- Dataflow、Speech-to-Text、Sensitive Data Protection Google Cloud サービスへの有効化とアクセス。
アクセスとデプロイ
完全なソースコードとデプロイ手順は、GitHub リポジトリで入手できます。