音訊資料為二進位格式。如果您是透過 gRPC 接收回應,可以直接讀取這些二進位資料;但使用 REST 要求時,回應會以 JSON 格式傳回。由於 JSON 是文字格式,無法直接夾帶二進位資料,因此 Text-to-Speech 會傳回以 Base64 編碼的回應字串。您必須先將這些 base64 編碼資料轉回二進位格式,才能在裝置上播放音訊。
Text-to-Speech 的 JSON 回應會將 base64 編碼的音訊內容放在 audioContent 欄位,例如:
{
"audioContent": "//NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o..."
}
若要將 base64 解碼成音訊檔案:
Linux
僅將 base-64 編碼內容複製到文字檔。
使用 base64 指令列工具搭配
-d標記,解碼來源文字檔:
$ base64 SOURCE_BASE64_TEXT_FILE -d > DESTINATION_AUDIO_FILE
Mac OSX
僅將 base-64 編碼內容複製到文字檔。
使用 base64 指令列工具解碼來源文字檔:
$ base64 --decode -i SOURCE_BASE64_TEXT_FILE > DESTINATION_AUDIO_FILE
Windows
僅將 base-64 編碼內容複製到文字檔。
使用
certutil指令解碼來源文字檔。
certutil -decode SOURCE_BASE64_TEXT_FILE DESTINATION_AUDIO_FILE