Nesta página, descrevemos como solicitar um modelo aprimorado de reconhecimento de fala ao enviar uma solicitação de transcrição à Cloud Speech-to-Text.
No momento, há dois modelos aprimorados: chamada telefônica e vídeo. Esses modelos foram otimizados para transcrever com mais acurácia os dados de áudio dessas fontes específicas. Consulte a página de idiomas disponíveis para saber se os modelos aprimorados estão disponíveis no seu idioma.
O Google cria e melhora modelos aprimorados com base nos dados coletados pela geração de registros de dados. A ativação da geração de registros de dados não é necessária para usar modelos aprimorados. No entanto, se você ativar essa opção, ajudará o Google a melhorar esses modelos e também terá acesso a um desconto no uso.
Para usar os modelos aprimorados de reconhecimento, defina os seguintes campos em RecognitionConfig:
- Defina
useEnhancedcomotrue. - Transmita a string
phone_callouvideono campomodel.
A Cloud STT permite o uso de modelos aprimorados em todos os métodos de
reconhecimento de fala:
speech:recognize,
speech:longrunningrecognize e streaming.
Os exemplos de código a seguir demonstram como solicitar o uso de um modelo aprimorado para uma solicitação de transcrição.
Protocolo
Consulte o endpoint da API speech:recognize para
conferir todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST e forneça o
corpo de solicitação apropriado. Confira a seguir um exemplo de uma solicitação POST que usa
curl. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulte a documentação de referência de RecognitionConfig
para saber como configurar o corpo da solicitação.
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON:
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Go.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Python.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Java.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Node.js.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Linguagens adicionais
C#: siga as instruções de configuração de C# na página das bibliotecas de cliente e acesse a documentação de referência da Cloud STT para .NET.
PHP: siga as instruções de configuração de PHP na página das bibliotecas de cliente e acesse a documentação de referência da Cloud STT para PHP.
Ruby: siga as instruções de configuração de Ruby na página das bibliotecas de cliente e acesse a documentação de referência da Cloud STT para Ruby.
A seguir
Confira como fazer solicitações de transcrição síncrona.