Nesta página, você aprende a usar um modelo de machine learning específico para fazer solicitações de transcrição de áudio à Cloud Speech-to-Text.
Modelos de transcrição
A Cloud Speech-to-Text detecta palavras em um clipe de áudio ao comprar a entrada de vários modelos de machine learning. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).
A Cloud STT tem modelos especializados treinados com áudio de fontes específicas, como chamadas telefônicas ou vídeos. Devido a esse processo de treinamento, esses modelos especializados fornecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio.
Por exemplo, a Cloud STT tem um modelo de transcrição treinado para reconhecer fala gravada por telefone. Quando a Cloud STT usa o modelo telephony ou telephony_short para transcrever áudios por telefone, ela produz resultados de transcrição com mais acurácia do que se os tivesse transcrito usando os modelos latest_short ou latest_long.
A tabela a seguir mostra os modelos de transcrições disponíveis para uso com a Cloud STT.
| Nome do modelo | Descrição |
|---|---|
latest_long |
Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo no lugar do modelo de vídeo, principalmente se o segundo não estiver disponível no idioma de destino. Também é possível usá-lo no lugar do modelo padrão. |
latest_short |
Use esse modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa. |
telephony |
Versão aprimorada do modelo "phone_call", ideal para áudios originados de uma chamada telefônica, geralmente gravados a uma taxa de amostragem de 8 kHz. |
telephony_short |
Versão dedicada do modelo moderno "telephony" para enunciados curtos ou de uma única palavra em áudios de chamada telefônica, geralmente gravados a uma taxa de amostragem de 8 kHz. |
medical_dictation |
Use esse modelo para transcrever notas ditadas por um profissional da saúde.
Este é um modelo premium que custa mais do que a taxa padrão. Consulte a página de preços para mais detalhes. |
medical_conversation |
Use esse modelo para transcrever uma conversa entre um profissional
da saúde e um paciente.
Esse é um modelo premium que custa mais do que a taxa padrão. Consulte a página de preços para mais detalhes. |
| Os modelos a seguir são baseados principalmente em arquiteturas clássicas sem conformidade e são mantidos majoritariamente por motivos legados e de compatibilidade com versões anteriores. | |
command_and_search |
Indicado para enunciados curtos ou de palavra única, como comandos de voz ou pesquisa por voz. |
default |
Indicado para áudios que não se encaixam nos outros modelos, como áudios ou ditados de formato longo. O modelo padrão vai produzir resultados de transcrição para qualquer tipo de áudio, incluindo áudios como clipes de vídeo, que são transcritos por um modelo separado e especificamente adaptado. No entanto, o reconhecimento de áudio de clipes de vídeo usando o modelo padrão vai produzir resultados de qualidade inferior em comparação com o uso do modelo de vídeo. O ideal é que o áudio seja de alta fidelidade e gravado com uma taxa de amostragem de 16 kHz ou mais. |
phone_call |
Ideal para áudios de chamadas telefônicas, geralmente gravados com uma taxa de amostragem de 8 kHz. |
video |
Indicado para áudios de clipes de vídeo ou outras fontes (como podcasts) com vários interlocutores. Esse modelo também costuma ser a melhor opção para áudios gravados com um microfone de alta qualidade ou que tenham muito ruído de fundo. Para conseguir resultados melhores, forneça um áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais. |
Selecionar um modelo para a transcrição de áudio
Para especificar um modelo a ser usado para transcrição de áudio, defina o campo model com um dos valores permitidos: latest_long, latest_short, telephony ou telephony_short, nos parâmetros RecognitionConfig da solicitação.
A Cloud STT é compatível com a seleção de modelos para todos os métodos de reconhecimento de fala: speech:recognize, speech:longrunningrecognize e streaming.
Realizar a transcrição de um arquivo de áudio local
Protocolo
Consulte o endpoint da API speech:recognize para
conferir todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST e forneça o
corpo de solicitação apropriado. Confira a seguir um exemplo de uma solicitação POST que usa
curl. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulte a documentação de referência de RecognitionConfig
para saber como configurar o corpo da solicitação.
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK e a resposta no formato JSON:
{
"results": [
{
"alternatives": [
{
"transcript": "OK Google stream stranger things from
Netflix to my TV okay stranger things from
Netflix playing on TV from the people that brought you
Google home comes the next evolution of the smart home
and it's just outside your window me Google know hi
how can I help okay no what's the weather like outside
the weather outside is sunny and 76 degrees he's right
okay no turn on the hose I'm holding sure okay no I'm can
I eat this lemon tree leaf yes what about this Daisy yes
but I wouldn't recommend it but I could eat it okay
Nomad milk to my shopping list I'm sorry that sounds like
an indoor request I keep doing that sorry you do keep
doing that okay no is this compost really we're all
compost if you think about it pretty much everything is
made up of organic matter and will return",
"confidence": 0.9251011
}
]
}
]
}Go
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Go.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Java.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Node.js.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Python.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse a Documentação de referência da Cloud STT para .NET.
PHP: siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse a Documentação de referência da Cloud STT para PHP.
Ruby: siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse a Documentação de referência da Cloud STT para Ruby.
Realizar a transcrição de um arquivo de áudio do Cloud Storage
Go
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Go.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Java.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Node.js.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Outras linguagens
C#: siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse a Documentação de referência da Cloud STT para .NET.
PHP: siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse a Documentação de referência da Cloud STT para PHP.
Ruby: siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse a Documentação de referência da Cloud STT para Ruby.