Cloud Text-to-Speech の基本

Cloud Text-to-Speech(TTS)は、再生可能な、自然に聞こえる合成音声を作り出すことができる API です。Cloud Text-to-Speech で作成した音声データファイルを使用して、アプリケーションを強化したり、動画撮影や音声録音の記録内容を補強したりできます(Google Cloud Platform 利用規約および適用法を遵守する必要があります)。

Cloud TTS は、テキストまたは音声合成マークアップ言語(SSML)の入力を MP3LINEAR16WAV ファイルで使用されるエンコード)などの音声データに変換します。

このドキュメントでは、Cloud Text-to-Speech の使用に関するコンセプトについて説明します。実際のコード例については、サンプル セクションをご覧ください。また、 Google Cloud プロジェクトを Cloud Text-to-Speech API を使用するよう設定する方法については、スタートガイド ページをご覧ください。

基本的な例

Cloud TTS は、人間が話しているような音声をユーザー向けに再生するアプリケーションに最適です。Cloud TTS を使用すると、任意の文字列、単語、文を、人間が話しているような音声に変換できます。

自然言語によるフィードバックを、再生可能な音声ファイルとして提供する音声アシスタント アプリを想像してみてください。Cloud TTS を使用すると、アプリでアクションを実行した後に、人間が話しているような音声でユーザーにフィードバックを提供できます。たとえば、アプリに、ユーザーのカレンダーにイベントを追加したことを報告させることにして、アプリは実行内容をユーザーに伝えるレスポンス テキスト(「カレンダーにイベントを追加しました」など)を生成するとします。

ここで Cloud TTS を使用すれば、次の例のようにレスポンス テキストが実際に人間が話しているような音声に変換され、ユーザーに再生されます。


例 1。Cloud TTS で生成された音声ファイル

例 1 のような音声ファイルを作成するには、次のコード スニペットのようにリクエストを Cloud TTS に送信します。

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: PROJECT_ID" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

音声合成

テキスト入力を音声データに変換するプロセスは合成と呼ばれ、合成の出力は合成音声と呼ばれます。Cloud TTS では、生のテキストと SSML 形式のデータ(以下で説明)の 2 種類の入力を使用します。新しい音声ファイルを作成するには、API の synthesize エンドポイントを呼び出します。

音声合成プロセスでは、生の音声データを base64 でエンコードされた文字列として生成します。アプリケーションで再生できるようにするには、base64 でエンコードされた文字列を音声ファイルにデコードする必要があります。ほとんどのプラットフォームやオペレーティング システムには、base64 テキストを再生可能なメディア ファイルにデコードするツールがあります。

合成の詳細については、クイックスタートまたは音声ファイルの作成ページをご覧ください。

音声

Cloud TTS では、自然な人間の声に似た生の音声データを作成します。つまり、人が話しているように聞こえる音声を生成します。Cloud TTS に合成リクエストを送信するときは、その単語を「発声する」音声を指定する必要があります。

Cloud TTS には、さまざまな種類のカスタム音声が用意されています。音声は、言語、性別、アクセント(一部の言語)によって異なります。たとえば、前の例のように、英国のアクセントで英語を話す女性の発話を模した音声を作成できます。同じテキストを別の音声(オーストラリアのアクセントで英語を話す男性の音声など)に変換することもできます。


例 2。en-AU スピーカーで生成された音声ファイル

使用可能なボイスの完全なリストについては、サポート対象の音声をご覧ください。

その他の音声出力設定

前述のボイス以外にも、音声合成によって生成される音声データの出力に関する構成要素があります。Cloud TTS では、発話速度、ピッチ、音量、サンプルレート(ヘルツ単位)の構成をサポートしています。

詳細については、AudioConfig リファレンスをご覧ください。

音声合成マークアップ言語(SSML)のサポート

音声合成マークアップ言語(SSML)を使用してテキストをマークアップすることで、Cloud TTS で生成される合成音声の品質を向上させることができます。SSML を使用すると、Cloud TTS で作成された音声データに、休止、頭字語の発音、その他の細かな変更を挿入できます。Cloud TTS は、利用可能な SSML 要素のサブセットをサポートしています。

たとえば、合成音声で序数が正確に発音されるようにするには、序数であることをマークする SSML 入力を Cloud TTS に渡します。


例 5。書式なしテキスト入力から生成された音声ファイル


例 6。SSML 入力から生成された音声ファイル

SSML から音声を合成する方法については、音声ファイルの作成をご覧ください。

次のステップ

設定ガイドを参照して Cloud Text-to-Speech の使用を開始する。