Cloud Text-to-Speech 基本資訊

Text-to-Speech 可讓開發人員建立自然的合成人類語音,並轉成可播放的音訊。如果遵守《Google Cloud Platform 服務條款》及所有適用法律規定,您可以使用 Text-to-Speech 建立音訊資料檔案,增強應用程式或影片、音訊錄音等媒體的效能。

Text-to-Speech 會將文字或語音合成標記語言 (SSML) 輸入內容轉換成音訊資料,例如 MP3 或 LINEAR16 (WAV 檔案使用的編碼)。

本文是使用 Text-to-Speech 的基本概念指南。在深入瞭解 API 之前,請先參閱快速入門導覽課程

基本範例

Text-to-Speech 非常適合向使用者播放人類語音音訊的應用程式,可讓您將任意字串、字詞和句子轉換成講述相同內容的人類語音。

想像您有一個語音助理應用程式,以可播放的音訊檔案,向使用者提供自然的語言回饋。您的應用程式可以採取動作,然後向使用者提供人類語音回饋。

例如,應用程式想要回報它已在使用者的日曆中成功新增一個活動。應用程式會建構一個回應字串,向使用者回報作業成功,例如「I've added the event to your calendar」(我已在您的日曆中新增活動)。

透過 Text-to-Speech,您可以將該回應字串轉換成真人語音並向使用者播放,類似於下方範例。


範例 1:Text-to-Speech 生成的音訊檔案

如要建立類似範例 1 的音訊檔案,請向 Text-to-Speech 傳送要求,如下方程式碼片段所示。

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

語音合成

將文字輸入內容轉譯成音訊資料的程序稱為「合成」,而合成輸出內容稱為「合成語音」。Text-to-Speech 接受兩種輸入內容類型:原始文字或 SSML 格式的資料 (將於下文探討)。如要建立新的音訊檔案,請呼叫 API 的 synthesize 端點。

語音合成程序會以 base64 編碼字串格式生成原始音訊資料。您必須先將 base64 編碼字串解碼成音訊檔案,應用程式才能播放此檔案。除此之外,大多數平台和作業系統都有工具,可以將 base64 文字解碼成可播放的媒體檔案。

如要進一步瞭解合成程序,請參閱快速入門導覽課程建立語音音訊檔案頁面。

語音

Text-to-Speech 會建立自然的人類語音原始音訊資料,也就是建立聽起來像人在說話的音訊。向 Text-to-Speech 傳送合成要求時,必須指定要「說」出單詞的「語音」

Text-to-Speech 提供多種自訂語音。語音會隨著語言、性別和腔調 (針對某些語言) 而有所區別。例如,您可以建立音訊,模仿說英國腔英語的女性,如上述的範例 1。您也可以將相同的文字轉換成不同語音,比如說澳洲腔英語的男性。


範例 2:en-AU 說話者生成的音訊檔案

如要查看完整的可用語音清單,請參閱「支援的語音」。

其他音訊輸出設定

除了語音外,您還可以為語音合成建立的音訊資料輸出內容設定其他面向。Text-to-Speech 支援設定語速、音調、音量及取樣率赫茲。

詳情請參閱 AudioConfig 參考資料

語音合成標記語言 (SSML) 支援

您可以使用「語音合成標記語言 (SSML)」標記文字,藉以強化 Text-to-Speech 產生的合成語音。SSML 可讓您在 Text-to-Speech 建立的音訊資料中插入停頓、首字母縮略字發音或其他額外的詳細資料。Text-to-Speech 支援部分可用的 SSML 元素

例如,您可以將標記出正確序數說法的 SSML 輸入內容提供給 Text-to-Speech,確保合成語音正確說出序數。


範例 5:根據純文字輸入內容生成的音訊檔案


範例 6:根據 SSML 輸入內容生成的音訊檔案

如要進一步瞭解如何根據 SSML 輸入內容合成語音,請參閱「建立語音音訊檔案

歡迎試用

如果您未曾使用 Google Cloud,歡迎建立帳戶,親自體驗實際使用 Text-to-Speech 的成效。新客戶還能獲得價值 $300 美元的免費抵免額,用於執行、測試及部署工作負載。

免費試用 Text-to-Speech