Nesta página, descrevemos como solicitar um modelo aprimorado de reconhecimento de fala ao enviar uma solicitação de transcrição ao Speech-to-Text.
Atualmente, há dois modelos aprimorados: chamada telefônica e vídeo. Esses modelos foram otimizados para transcrever com mais acurácia os dados de áudio dessas fontes específicas. Consulte a página de idiomas compatíveis para ver se os modelos aprimorados estão disponíveis no seu idioma.
O Google cria e melhora modelos aprimorados com base nos dados coletados pela geração de registros de dados. A ativação do registro de dados não é necessária para usar modelos aprimorados. No entanto, se você ativar essa opção, poderá ajudar o Google a melhorar esses modelos e também ter um desconto em seu uso.
Para usar os modelos de reconhecimento aprimorados, defina os seguintes campos em RecognitionConfig:
- Defina
useEnhancedcomotrue. - Transmita a string
phone_callouvideono campomodel.
O Speech-to-Text oferece suporte a modelos aprimorados
para todos os métodos de reconhecimento de fala:
speech:recognize,
speech:longrunningrecognize e Streaming.
Os exemplos de código a seguir demonstram como solicitar o uso de um modelo aprimorado para uma solicitação de transcrição.
Protocolo
Consulte o endpoint da API speech:recognize para
conferir todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST e forneça o
corpo de solicitação apropriado. Confira a seguir um exemplo de uma solicitação POST que usa
curl. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulte a documentação de referência de RecognitionConfig
para saber como configurar o corpo da solicitação.
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON:
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Linguagens adicionais
C#: siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência da Speech-to-Text para .NET.
PHP: siga as instruções de configuração do PHP na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência da Speech-to-Text para PHP.
Ruby: siga as instruções de configuração do Ruby na página das bibliotecas de cliente e, em seguida, acesse a documentação de referência do Speech-to-Text para Ruby.
A seguir
Confira como fazer solicitações de transcrição síncrona.