Criar áudios de formato longo

Este documento explica o processo de sintetização de áudios de formato longo. A síntese de áudios longos sintetiza de maneira assíncrona até 1 milhão de bytes na entrada. Para saber mais sobre os conceitos básicos da Cloud Text-to-Speech, leia Princípios básicos da Cloud Text-to-Speech.

Antes de começar

Antes de enviar uma solicitação à API Cloud Text-to-Speech, é preciso realizar as ações a seguir. Consulte a página Antes de começar para saber mais.

Ative a Cloud Text-to-Speech em um projeto do Google Cloud .
1. Verifique se o faturamento está ativado para a Cloud Text-to-Speech.
2. Verifique se você tem os papéis do Identity and Access Management (IAM) a seguir no bucket de saída do Google Cloud .
  - Criador de objetos do Storage
  - Leitor de objetos do Storage
Instale a CLI do Google Cloud. Após a instalação, inicialize a CLI do Google Cloud executando o seguinte comando:
```
gcloud init
```
Ao usar um provedor de identidade (IdP) externo, primeiro faça login na gcloud CLI com sua identidade federada.

Como sintetizar áudios longos a partir de textos usando a linha de comando

É possível converter textos longos em áudio fazendo uma solicitação POST HTTP ao endpoint https://texttospeech.googleapis.com/v1beta1/projects/{$project_number}/locations/global:synthesizeLongAudio. No corpo do comando POST, especifique os campos a seguir.

• voice: o tipo de voz que será sintetizada.

• input.text: o texto que será sintetizado.

• audioConfig: o tipo de áudio que será criado.

• output_gcs_uri: o caminho de saída do Google Cloud no formato gs://bucket_name/file_name.wav.

• parent: o pai no formato projects/{YOUR_PROJECT_NUMBER}/locations/{YOUR_PROJECT_LOCATION}.

A entrada pode conter até 1 MB de caracteres, e o limite exato pode variar.

Crie um bucket de armazenamento do Google Cloud no projeto usado para executar a síntese. Verifique se a conta de serviço usada para executar a síntese tem acesso de leitura e de gravação ao bucket de saída do Google Cloud .

Execute a solicitação REST na linha de comando para sintetizar o áudio baseado no texto com a Cloud TTS. O comando usa gcloud auth application-default print-access-token para recuperar um token de autorização da solicitação.

Método HTTP e URL:

POST https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio

Corpo JSON da solicitação:

{
  "parent": "projects/12345/locations/global",
  "audio_config":{
      "audio_encoding":"LINEAR16"
  },
  "input":{
      "text":"hello"
  },
  "voice":{
      "language_code":"en-us",
      "name":"en-us-Standard-A"
  },
  "output_gcs_uri": "gs://bucket_name/file_name.wav"
}

Para enviar a solicitação, expanda uma destas opções:

curl (Linux, macOS ou Cloud Shell)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI do gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio"

PowerShell (Windows)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando abaixo:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a esta:

{
  "name": "23456",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.texttospeech.v1beta1.SynthesizeLongAudioMetadata",
    "progressPercentage": 0,
    "startTime": "2022-12-20T00:46:56.296191037Z",
    "lastUpdateTime": "2022-12-20T00:46:56.296191037Z"
  },
  "done": false
}

A saída JSON para o comando REST contém o nome da operação longa no campo name. Execute a solicitação REST na linha de comando para consultar o estado da operação de longa duração.

Verifique se a conta de serviço que executa a operação GET pertence ao mesmo projeto usado para a síntese.

Método HTTP e URL:
```
GET https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456
```
Para enviar a solicitação, expanda uma destas opções:
curl (Linux, macOS ou Cloud Shell)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI do gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Execute o seguinte comando:
```
curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456"
```
PowerShell (Windows)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Execute o seguinte comando:
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456" | Select-Object -Expand Content
```
Você receberá uma resposta JSON semelhante a esta:
```
{
  "name": "projects/12345/locations/global/operations/23456",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.texttospeech.v1beta1.SynthesizeLongAudioMetadata",
    "progressPercentage": 100
  },
  "done": true
}
```
Consulte a lista de todas as operações em execução em um determinado projeto e execute a solicitação REST.

Verifique se a conta de serviço que executa a operação LIST pertence ao mesmo projeto usado para a síntese.

Método HTTP e URL:
```
GET https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations
```
Para enviar a solicitação, expanda uma destas opções:
curl (Linux, macOS ou Cloud Shell)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI do gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Execute o seguinte comando:
```
curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations"
```
PowerShell (Windows)

Observação: o comando a seguir pressupõe que você tenha feito login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . Para saber qual é a conta ativa no momento, execute o comando gcloud auth list.

Execute o seguinte comando:
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations" | Select-Object -Expand Content
```
Você receberá uma resposta JSON semelhante a esta:
```
{
  "operations": [
    {
      "name": "12345",
      "done": false
    },
    {
      "name": "23456",
      "done": false
    }
  ],
  "nextPageToken": ""
}
```
Depois que a operação de longa duração for concluída, encontre o arquivo de áudio de saída no URI do bucket fornecido no campo output_gcs_uri. Se a operação não tiver sido concluída, encontre o erro realizando uma consulta com o comando GET REST, corrija o erro e emita novamente o RPC.

Sintetizar áudios longos a partir de textos usando bibliotecas de cliente

Siga as instruções abaixo para sintetizar áudios longos.

Instale a biblioteca de cliente

Python

Antes de instalar a biblioteca, verifique se você preparou o ambiente para o desenvolvimento em Python.

pip install --upgrade google-cloud-texttospeech

Criar dados de áudio

É possível usar a Cloud TTS para criar um arquivo de áudio longo com fala humana sintética. Use o código a seguir para criar um arquivo de áudio longo no bucket do Google Cloud .

Python

Antes de executar o exemplo, verifique se você preparou o ambiente para o desenvolvimento em Python.

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from google.cloud import texttospeech


def synthesize_long_audio(project_id: str, output_gcs_uri: str) -> None:
    """
    Synthesizes long input, writing the resulting audio to `output_gcs_uri`.

    Args:
        project_id: ID or number of the Google Cloud project you want to use.
        output_gcs_uri: Specifies a Cloud Storage URI for the synthesis results.
            Must be specified in the format:
            ``gs://bucket_name/object_name``, and the bucket must
            already exist.
    """

    client = texttospeech.TextToSpeechLongAudioSynthesizeClient()

    input = texttospeech.SynthesisInput(
        text="Test input. Replace this with any text you want to synthesize, up to 1 million bytes long!"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US", name="en-US-Standard-A"
    )

    parent = f"projects/{project_id}/locations/us-central1"

    request = texttospeech.SynthesizeLongAudioRequest(
        parent=parent,
        input=input,
        audio_config=audio_config,
        voice=voice,
        output_gcs_uri=output_gcs_uri,
    )

    operation = client.synthesize_long_audio(request=request)
    # Set a deadline for your LRO to finish. 300 seconds is reasonable, but can be adjusted depending on the length of the input.
    # If the operation times out, that likely means there was an error. In that case, inspect the error, and try again.
    result = operation.result(timeout=300)
    print(
        "\nFinished processing, check your GCS bucket to find your audio file! Printing what should be an empty result: ",
        result,
    )

Limpar

Para evitar cobranças desnecessárias do Google Cloud , use o Google Cloud console para excluir o projeto se ele não for mais necessário.

A seguir

Saiba mais sobre a Cloud Text-to-Speech lendo as noções básicas.
Verifique a lista de vozes disponíveis que você pode usar para fala sintética.