A Cloud Text-to-Speech é uma API que permite criar fala humana sintética e com som natural como áudio que pode ser tocado. É possível usar os arquivos de dados de áudio criados com a Cloud Text-to-Speech para melhorar seus aplicativos ou aumentar a mídia, como vídeos ou gravações de áudio, em conformidade com todos os Termos de Serviço do Google Cloud Platform e com as leis aplicáveis.
A Cloud TTS converte texto ou entrada de Linguagem de Marcação de Síntese de Fala (SSML, na sigla em inglês) em dados de áudio como MP3 ou LINEAR16 (a codificação usada em arquivos WAV).
Este documento é um guia conceitual sobre o uso da Cloud Text-to-Speech. Para exemplos práticos de código, consulte a seção de amostras e, se quiser saber como configurar seu projeto do Google Cloud para usar a API Cloud Text-to-Speech, confira a página de introdução.
Exemplo básico
A Cloud TTS é ideal para qualquer aplicativo que reproduza áudio da fala humana para os usuários. Com essa ferramenta, é possível converter strings, palavras e frases arbitrárias no som de uma pessoa falando aquilo.
Imagine que você tenha um app de assistente por voz que ofereça feedback em idioma natural para seus usuários como arquivos de áudio que podem ser tocados. Use a Cloud TTS para fazer seu app realizar uma ação e, em seguida, forneça feedback ao usuário em formato de fala humana. Por exemplo, você pode fazer seu app informar que adicionou um evento à agenda do usuário. O aplicativo cria uma string de resposta para informar o usuário sobre a adição, algo como "Adicionei o evento à sua agenda".
Com a Cloud TTS, é possível converter essa string de resposta em fala humana real a ser reproduzida para o usuário, semelhante ao exemplo a seguir:
Exemplo 1. Arquivo de áudio gerado pela Cloud TTS
Para criar um arquivo de áudio como no exemplo 1, envie uma solicitação para a Cloud TTS, como o snippet de código a seguir.
curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: PROJECT_ID" -H "Content-Type: application/json; charset=utf-8" --data "{
'input':{
'text':'With Cloud machine learning, your application interprets images, texts, and more.'
},
'voice':{
'languageCode':'en-gb',
'name':'en-GB-Chirp3-HD-Charon',
},
'audioConfig':{
'audioEncoding':'LINEAR16'
}
}" "https://texttospeech.googleapis.com/v1/text:synthesize"
Síntese de fala
O processo de conversão de uma entrada de texto em dados de áudio é chamado de síntese, e a saída da síntese é chamada de fala sintética. A Cloud TTS aceita dois tipos de entrada: texto bruto ou dados formatados em SSML (conforme explicado abaixo). Para criar um novo arquivo de áudio, chame o endpoint synthesize da API.
O processo de síntese de fala gera dados de áudio brutos como uma string codificada em base64. Você precisa decodificar a string codificada em base64 em um arquivo de áudio para que o aplicativo possa reproduzi-la. A maioria das plataformas e dos sistemas operacionais também tem ferramentas para decodificar texto em base64 em arquivos de mídia reproduzíveis.
Para saber mais sobre a síntese, consulte os guias de início rápido ou a página Como criar arquivos de áudio de voz.
Vozes
A Cloud TTS cria dados de áudio brutos de fala humana natural. Ou seja, ele cria áudio que soa como uma pessoa falando. Quando você envia uma solicitação de síntese para a Cloud TTS, é necessário especificar uma voz que "fala" as palavras.
A Cloud TTS tem uma ampla seleção de vozes personalizadas disponíveis para uso. As vozes diferem por idioma, gênero e sotaque (para alguns idiomas). Por exemplo, é possível criar áudio que imita o som de uma mulher falante de inglês com sotaque britânico, como o exemplo anterior. Você também pode converter o mesmo texto em uma voz diferente, como um homem falante de inglês com sotaque australiano.
Exemplo 2. Arquivo de áudio gerado com um falante de inglês australiano
Para ver a lista completa com as vozes disponíveis, consulte Vozes compatíveis.
Outras configurações de saída de áudio
Além da voz, você também pode configurar outros aspectos da saída de dados de áudio criados pela síntese de fala. Na Cloud TTS, é possível configurar taxa de fala, tom, volume e taxa de amostragem em hertz.
Para mais informações, consulte a referência AudioConfig.
Compatibilidade com Linguagem de Marcação de Síntese de Fala (SSML)
É possível aprimorar a fala sintética produzida pela Cloud TTS marcando o texto com a Linguagem de Marcação de Síntese de Fala (SSML). A SSML permite que você insira pausas, pronúncias de siglas ou outros detalhes nos dados de áudio criados pela Cloud TTS. A Cloud TTS aceita um subconjunto dos elementos SSML disponíveis.
Por exemplo, é possível assegurar que a fala sintética pronuncie corretamente números ordinais. Para isso, é preciso fornecer à Cloud TTS a entrada de SSML que marca números ordinais como tal.
Exemplo 5. Arquivo de áudio gerado da entrada de texto simples
Exemplo 6. Arquivo de áudio gerado da entrada de SSML
Para saber mais sobre como sintetizar fala a partir de SSML, consulte Como criar arquivos de áudio de voz
A seguir
Siga nosso guia de configuração para começar a usar a Cloud Text-to-Speech.