Speech-to-Text Chirp 3 で音声文字変換を使用する

Speech-to-Text(STT)API v2 が提供する Google の最新世代の多言語自動音声認識(ASR)専用生成モデルである Chirp 3 は、音声文字変換に使用できます。 Google Cloud

設定

Speech-to-Text Chirp 3 で音声文字変換を有効にする手順は次のとおりです。

コンソール

Agent Assist コンソールを使用して会話プロファイルを作成または更新する場合は、次の手順に沿って Speech-to-Text の設定を行い、Chirp 3 モデルを使用します。

  1. [**会話プロファイル**] をクリックします。
  2. プロファイルの名前をクリックします。
  3. [Speech to Text の設定] セクションに移動します。
  4. モデルとして [Chirp 3] を選択します。
  5. (省略可)音声がテレフォニー統合を介して送信される場合は、[AA テレフォニー SipRec 統合に Long Form モデルを使用する] を選択します。
  6. (省略可)言語制限付きの音声文字変換の場合は、言語コード と最大 1 つの代替言語コード を構成します。
  7. (省略可)言語に依存しない音声文字変換の場合は、言語コードとして「auto」を構成します。
  8. (省略可)音声適応のフレーズを構成して、モデル適応の精度を高めます。

REST API

API を直接呼び出して、会話プロファイルを作成または更新できます。次の例に示すように、ConversationProfile.sttConfig.useSttV2 フィールドを使用して STT V2 を有効にします。 構成の例:

{
"name": "projects/PROJECT_ID/locations/global/conversationProfiles/CONVERSATION_PROFILE_ID",f
"displayName": "CONVERSATION_PROFILE_NAME",
"automatedAgentConfig": {
},
"humanAgentAssistantConfig": {
  "notificationConfig": {
    "topic": "projects/PROJECT_ID/topics/FEATURE_SUGGESTION_TOPIC_ID",
    "messageFormat": "JSON"
  },
  "humanAgentSuggestionConfig": {
    "featureConfigs": [{
      "enableEventBasedSuggestion": true,
      "suggestionFeature": {
        "type": "ARTICLE_SUGGESTION"
      },
      "conversationModelConfig": {
      }
    }]
  },
  "messageAnalysisConfig": {
  }
},
"sttConfig": {
  "model": "chirp_3",
  "useSttV2": true,
},
"languageCode": "en-US"
}

ベスト プラクティス

Chirp 3 モデルで音声文字変換を最大限に活用するには、次の推奨事項に従ってください。

オーディオ ストリーミング

Chirp 3 のパフォーマンスを最大限に高めるには、音声をほぼリアルタイムで送信します。つまり、X 秒の音声がある場合は、約 X 秒でストリーミングします。音声を小さなチャンクに分割します。各チャンクのフレームサイズは 100 ミリ秒です。音声ストリーミングのベスト プラクティスについて詳しくは、Speech-to-Text のドキュメントをご覧ください。

音声適応を使用する

Chirp 3 の音声適応を使用した音声文字変換は、会話プロファイルで構成されたインライン フレーズでのみ使用してください。

地域と言語のサポート

Chirp 3 は、すべての Speech-to-Text 言語で利用できます。リリース準備は言語によって異なります。また、northamerica-northeast1northamerica-northeast2asia-south1 を除くすべての Agent Assist リージョンで利用できます。

割り当て

Chirp 3 モデルを使用した音声文字変換リクエストの数は、SttV2StreamingRequestsPerMinutePerResourceTypePerRegion 割り当てによって制限され、chirp_3 がリソースタイプとしてラベル付けされます。割り当ての使用状況と割り当ての増加をリクエストする方法については、 Google Cloud 割り当てガイドをご覧ください。

割り当ての場合、グローバル Dialogflow エンドポイントへの音声文字変換リクエストは us-central1 リージョンにあります。