Transcrever voz em texto usando o console do Google Cloud
Neste guia de início rápido, apresentamos o Console do Cloud Speech-to-Text. Neste guia de início rápido, você criará e refinará uma transcrição e aprenderá a usar essa configuração com a API Speech-to-Text para seus próprios aplicativos.
Para saber como enviar solicitações e receber respostas usando a API REST em vez do console, consulte a página antes de começar.
Antes de começar
Antes de começar a usar o Console do Speech-to-Text, é preciso ativar a API no Console do Google Cloud Platform. As etapas abaixo mostram como realizar as seguintes ações:
- Ativar o Speech-to-Text em um projeto.
- Verificar se o faturamento está ativado para o Speech-to-Text.
Configurar o projeto do Google Cloud
Acessar a página do seletor de projetos
É possível escolher um projeto existente ou criar um novo. Para mais detalhes sobre como criar um projeto, consulte a documentação do Google Cloud Platform.
Se você criar um novo projeto, será solicitado que vincule uma conta de faturamento a esse projeto. Se você estiver usando um projeto atual, verifique se o faturamento está ativado.
Aprenda a confirmar se o faturamento está ativado para o projeto.
Depois de selecionar um projeto e vinculá-lo a uma conta de faturamento, é possível ativar a API Speech-to-Text. Acesse a barra Pesquisar produtos e recursos na parte superior da página e digite "speech".
Selecione a API Cloud Speech-to-Text na lista de resultados.
Para testar o Speech-to-Text sem vinculá-lo ao projeto, escolha a opção TESTAR ESTA API. Para ativar a API Speech-to-Text para uso com o projeto, clique em ATIVAR.
Funções exigidas
Para receber as permissões necessárias para criar uma transcrição,
peça ao administrador para conceder a você o
papel do IAM de Administrador do Storage (roles/storage.admin
)
no seu projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém as permissões necessárias para criar uma transcrição. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As seguintes permissões são necessárias para criar uma transcrição:
-
storage.buckets.get
-
storage.buckets.list
-
storage.buckets.update
-
No nível do projeto ou do bucket:
-
storage.objects.create
-
storage.objects.delete
-
storage.objects.get
-
storage.objects.list
-
storage.objects.update
-
Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Criar uma transcrição
Use o console Google Cloud para criar uma transcrição.
Configuração de áudio
Abra a visão geral do Speech-to-Text.
Clique em Criar transcrição.
- Se esta for a primeira vez que você usa o console,
será solicitado a escolher onde no Cloud Storage armazenar suas
configurações e transcrições.
- Se esta for a primeira vez que você usa o console,
será solicitado a escolher onde no Cloud Storage armazenar suas
configurações e transcrições.
Na página Criar transcrição, Faça upload de um arquivo de áudio de origem. É possível escolher um arquivo que já está salvo no Cloud Storage ou fazer upload de um novo para o destino especificado do Cloud Storage.
Selecione o tipo de codificação do arquivo de áudio enviado.
Especifique a taxa de amostragem.
Clique em Continuar. Você será direcionado para Opções de transcrição.
Opções de transcrição
Selecione o código do idioma do áudio de origem. Este é o idioma falado na gravação.
Escolha o modelo de transcrição que você quer usar no arquivo. A opção Padrão é pré-selecionada e, geralmente, nenhuma alteração é necessária, mas fazer a correspondência do modelo com o tipo de áudio pode resultar em maior acurácia. Observe que os custos do modelo variam.
Clique em Continuar. Você será direcionado para Adaptação do modelo.
Adaptação do modelo (opcional)
Se o áudio de origem tiver itens como palavras raras, nomes próprios ou termos reservados, e você tiver problemas com o reconhecimento, a adaptação do modelo poderá ajudar.
Marque Ativar a adaptação do modelo.
Escolha Recurso de adaptação única.
Adicione frases relevantes e atribua a elas um valor de otimização.
Na coluna à esquerda, clique em Enviar para criar a transcrição.
Revisar a transcrição
Dependendo do tamanho do arquivo de áudio, a transcrição pode levar de minutos a horas para ser criada. Depois que a transcrição for criada, ela estará pronta para revisão. Classificar a tabela por carimbo de data/hora ajuda você a localizar as transcrições recentes.
Clique no Nome da transcrição que você quer revisar.
Comparar o texto Transcrição com o arquivo de áudio
Se você quiser fazer alterações, clique em Reutilizar configuração. Isso levará ao fluxo Criar transcrição com as mesmas opções pré-selecionadas, permitindo que você altere alguns itens, crie uma nova transcrição e compare os resultados.
A seguir
- Pratique a transcrição de arquivos de áudio curtos.
- Saiba como agrupar arquivos de áudio longos para reconhecimento de fala.
- Aprenda a transcrever um streaming de áudio, como de um microfone.
- Comece a usar a Speech-to-Text no idioma de sua preferência com uma biblioteca de cliente da Speech-to-Text.
- Trabalhe com os aplicativos de exemplo.
- Consulte a documentação de práticas recomendadas para ter melhor desempenho e acurácia e conferir outras dicas.