Noções básicas do Cloud Text-to-Speech

O Cloud Text-to-Speech é uma API que lhe permite criar voz humana sintética natural como áudio reproduzível. Pode usar os ficheiros de dados de áudio que cria com a API Cloud Text-to-Speech para otimizar as suas aplicações ou aumentar o conteúdo multimédia, como vídeos ou gravações de áudio (em conformidade com os Termos de Utilização da Google Cloud Platform, incluindo a conformidade com toda a legislação aplicável).

O Cloud TTS converte texto ou entrada de Speech Synthesis Markup Language (SSML) em dados de áudio, como MP3 ou LINEAR16 (a codificação usada em ficheiros WAV).

Este documento é um guia conceptual para usar a API Cloud Text-to-Speech. Para ver exemplos de código práticos, consulte a nossa secção de exemplos e a nossa página de introdução para saber como configurar o seu Google Cloud projeto para usar a API Cloud Text-to-Speech.

Exemplo básico

O TTS na nuvem é ideal para qualquer aplicação que reproduza áudio de voz humana para os utilizadores. Com a TTS na nuvem, pode converter strings arbitrárias, palavras e frases no som de uma pessoa a dizer as mesmas coisas.

Imagine que tem uma app de assistente de voz que fornece feedback em linguagem natural aos seus utilizadores como ficheiros de áudio reproduzíveis. Pode usar o Cloud TTS para que a sua app execute uma ação e, em seguida, forneça voz humana como feedback ao utilizador. Pode querer que a sua app comunique que adicionou com êxito um evento ao calendário do utilizador. A sua app criaria uma string de resposta para comunicar o êxito ao utilizador, algo como "Adicionei o evento ao seu calendário".

Com o Cloud TTS, pode converter essa string de resposta em fala humana real para reproduzir para o utilizador, semelhante ao seguinte exemplo:


Exemplo 1. Ficheiro de áudio gerado a partir do Cloud TTS

Para criar um ficheiro de áudio como o do exemplo 1, envia um pedido ao Cloud TTS, como o seguinte fragmento do código.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: PROJECT_ID" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Síntese de voz

O processo de traduzir a entrada de texto em dados de áudio chama-se síntese e a saída da síntese chama-se voz sintética. O TTS na nuvem aceita dois tipos de entrada: texto não processado ou dados formatados em SSML (descritos abaixo). Para criar um novo ficheiro de áudio, chame o ponto final synthesize da API.

O processo de síntese de voz gera dados de áudio não processados como uma string codificada em Base64. Tem de descodificar a string codificada em base64 num ficheiro de áudio antes de uma aplicação o poder reproduzir. A maioria das plataformas e sistemas operativos tem ferramentas para descodificar texto base64 em ficheiros multimédia reproduzíveis.

Para saber mais sobre a síntese, reveja os inícios rápidos ou a página Criar ficheiros de áudio de voz.

Vozes

O Cloud TTS cria dados de áudio brutos de fala humana natural. Ou seja, cria áudio que soa como uma pessoa a falar. Quando envia um pedido de síntese para o Cloud TTS, tem de especificar uma voz que "fale" as palavras.

O Cloud TTS tem uma vasta seleção de vozes personalizadas disponíveis para utilização. As vozes diferem consoante o idioma, o género e o sotaque (para alguns idiomas). Por exemplo, pode criar áudio que imita o som de uma oradora de inglês com sotaque britânico, como no exemplo anterior. Também pode converter o mesmo texto numa voz diferente (por exemplo, um falante de inglês do sexo masculino com um sotaque australiano).


Exemplo 2. Ficheiro de áudio gerado com o altifalante en-AU

Para ver a lista completa das vozes disponíveis, consulte o artigo Vozes suportadas.

Outras definições de saída de áudio

Além da voz, também pode configurar outros aspetos da saída de dados de áudio criada pela síntese de voz. O TTS na nuvem suporta a configuração da velocidade de voz, do tom, do volume e da taxa de amostragem em Hertz.

Para mais informações, consulte a AudioConfig referência.

Compatibilidade com a linguagem de marcação de síntese de voz (SSML)

Pode melhorar a voz sintética produzida pela API Cloud TTS ao marcar o texto com a linguagem de marcação de síntese de voz (SSML). A SSML permite-lhe inserir pausas, pronúncias de acrónimos ou outros detalhes adicionais nos dados de áudio criados pelo Cloud TTS. O Cloud TTS suporta um subconjunto dos elementos SSML disponíveis.

Por exemplo, pode garantir que a voz sintética pronuncia corretamente os números ordinais fornecendo ao Cloud TTS uma entrada SSML que marca os números ordinais como tal.


Exemplo 5. Ficheiro de áudio gerado a partir de entrada de texto simples


Exemplo 6. Ficheiro de áudio gerado a partir de entrada SSML

Para saber como sintetizar a fala a partir de SSML, consulte o artigo Criar ficheiros de áudio de voz.

O que se segue?

Comece a usar a conversão de texto em voz do Google Cloud seguindo o nosso guia de configuração.