Neste início rápido, saiba como medir e melhorar a precisão do Google Cloud Cloud Speech-to-Text para os seus dados de áudio. Explore também os vários modelos e opções disponíveis na API para melhorar a precisão da transcrição. Explore como usar a IU do Cloud Speech-to-Text na Google Cloud consola e um ficheiro de dados reais para medir a precisão e obter estatísticas sobre o sistema Cloud Speech-to-Text.
Os sistemas de aprendizagem automática (AA) estão inerentemente sujeitos a imprecisões e os sistemas de reconhecimento de voz automático (ASR), também conhecidos como sistemas de voz para texto na nuvem, não são exceção. A medição precisa da precisão está fortemente associada a exemplos de utilização específicos e aos sistemas que estão a ser avaliados, uma vez que as diferenças na qualidade de gravação de áudio e nas condições acústicas podem afetar significativamente a precisão. Como resultado, uma classificação de precisão singular para todos os clientes e exemplos de utilização é impraticável. Para garantir o desempenho fiável dos sistemas ASR em sistemas de produção críticos. Também é essencial compreender o desempenho do Cloud Speech-to-Text no contexto mais amplo do seu sistema.
Para os fins deste guia de início rápido,use o método padrão da indústria para comparação, a taxa de erro de palavras (WER), muitas vezes abreviada como WER. Para mais informações sobre como o WER é calculado e interpretado, consulte o artigo Meça e melhore a precisão da voz.
Comece a usar a Google Cloud consola
Certifique-se de que se inscreveu numa Google Cloud conta e criou um projeto.
- Aceda a Voz na Google Cloud consola e navegue para a IU do Cloud Speech-to-Text.
- Usando um ficheiro de áudio que seja acusticamente representativo do seu exemplo de utilização e de como planeia usar o sistema ASR, siga as instruções de início rápido para fazer a sua primeira transcrição usando o Cloud Speech-to-Text.
Calcular a precisão da transcrição
- Depois de transcrever com êxito o ficheiro de áudio, use a secção Precisão da transcrição. Esta secção permanece vazia até que a precisão seja calculada para a sua transcrição.
- Com o botão Carregar dados de referência na parte superior da secção, pode começar a calcular a precisão.
Especificar a exatidão
- Para calcular a precisão da transcrição, forneça um ficheiro de dados reais. Este é um ficheiro TXT ou CSV, normalmente um ficheiro de transcrição gerado por humanos que contém as transcrições corretas ou esperadas para comparação.
- Usando
gs://cloud-samples-data/speech/brooklyn_bridge.wavcomo exemplo. O ficheiro de dados reais contém:How old is the Brooklyn Bridge. Se não tiver um ficheiro de dados reais disponível, recomendamos que transfira a transcrição num formato de texto. Edite o ficheiro de transcrição conforme necessário. Carregue o ficheiro de transcrição como ficheiro de dados reais. - Usando a opção Carregar ou um ficheiro do Cloud Storage existente, especifique o ficheiro de dados reais e clique em Guardar.
Confirmar factos observáveis
- Depois de clicar em Guardar, é apresentada uma mensagem para confirmar que o ficheiro de dados reais especificado está correto. Verifique se o ficheiro de dados reais representa com precisão as transcrições corretas, uma vez que afeta diretamente as métricas de precisão.
- Clique em Confirmar para continuar.
Reveja os resultados da avaliação
- Consoante o tamanho dos dados de entrada, o processo de avaliação pode demorar algum tempo, e os resultados são apresentados após a conclusão.
- Assim que a avaliação estiver concluída, são apresentadas as seguintes secções:
- A tabela Precisão da transcrição, as métricas de precisão e um link para o ficheiro de dados reais que foram usados no processo.
- O
Transcriptioncom um botão para comparar com o ficheiro de dados reais juntamente com uma discriminação das métricas de precisão e destaques.
- Reveja e interprete os resultados de precisão para compreender o desempenho do
reconhecedor do Cloud Speech-to-Text que são usados para identificar áreas de
melhoria, uma vez que os resultados variam consoante as entradas e a transcrição
usadas. Nos exemplos seguintes, pode ver casos indicativos dos resultados de precisão, que fornecem estatísticas valiosas para a otimização do sistema Cloud Speech-to-Text.
- Um exemplo de 0% de WER:
Página de precisão da transcrição do Cloud Speech-to-Text, que mostra os resultados da avaliação calculados para a transcrição fornecida com uma taxa de erro de palavras de 0%. - Um exemplo de 40% de WER:
Página de precisão da transcrição do Cloud Speech-to-Text, que mostra os resultados da avaliação calculados para a transcrição fornecida com uma taxa de erro de palavras de 40%.
- Um exemplo de 0% de WER:
Opcional: atualizar factos observáveis
Pode testar uma verdade fundamental diferente em relação à transcrição existente, anexando um ficheiro diferente e, em seguida, repetindo os passos três e quatro com um ficheiro de verdade fundamental atualizado.
Experimente
Se está a usar o Google Cloud pela primeira vez, crie uma conta para avaliar o desempenho do STT do Google Cloud em cenários reais. Os novos clientes também recebem 300 USD em créditos gratuitos para executar, testar e implementar cargas de trabalho.
Experimente o STT na nuvem gratuitamente