Melhore a acurácia dos resultados de transcrição que você recebe do Cloud Speech-to-Text usando a adaptação de modelo. Com ela, é possível especificar palavras e frases que a Cloud STT vai reconhecer com mais frequência nos dados de áudio do que outras opções que podem ser sugeridas. A adaptação de modelo é especialmente útil para melhorar a acurácia da transcrição nos seguintes casos de uso:
- Seu áudio contém palavras ou frases que provavelmente ocorrerão com frequência.
- É provável que seu áudio contenha palavras raras (como nomes próprios) ou palavras que não existem no uso geral.
- Seu áudio contém ruído ou não é muito claro.
Antes de ler este documento, confira a Introdução à adaptação de modelo para ter uma visão geral de como esse recurso funciona. Para informações sobre limites de frases e caracteres por solicitação de adaptação de modelo, consulte Cotas e limites.
Exemplo de código
A adaptação de modelo é uma configuração opcional da Cloud STT que pode ser usada para personalizar os resultados da transcrição de acordo com suas necessidades. Consulte a documentação RecognitionConfig para mais informações sobre como configurar o corpo da solicitação de reconhecimento.
O exemplo de código a seguir demonstra como melhorar a acurácia da transcrição usando um recurso SpeechAdaptation: PhraseSet, CustomClass e a otimização da adaptação de modelo.
Para usar um PhraseSet ou um CustomClass em solicitações futuras, anote o recurso name, retornado na resposta ao criar o recurso.
Para uma lista das classes pré-criadas disponíveis para seu idioma, consulte Tokens de classe disponíveis.
Python
Para saber como instalar e usar a biblioteca de cliente da Cloud STT, consulte Bibliotecas de cliente da Cloud STT. Saiba mais na documentação de referência da API Cloud STT para Python.
Para se autenticar na Cloud STT, configure o Application Default Credentials. Se quiser mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.