Transcrever voz em texto usando o console do Google Cloud

Neste guia de início rápido, apresentamos o console da Cloud Speech-to-Text. Neste guia de início rápido, você vai criar e refinar uma transcrição e aprender a usar essa configuração com a API Cloud Speech-to-Text para seus próprios aplicativos.

Para saber como enviar solicitações e receber respostas usando a API REST em vez do console, consulte a página Antes de começar.

Antes de começar

Antes de começar a usar o console da Cloud Speech-to-Text, ative a API no console do Google Cloud Platform. As etapas abaixo mostram como realizar as seguintes ações:

Ativar a Cloud Speech-to-Text em um projeto.
Verificar se o faturamento está ativado para a Cloud Speech-to-Text.

Configurar o projeto do Google Cloud

Fazer login no console do Google Cloud
Acessar a página do seletor de projetos.

É possível escolher um projeto existente ou criar um novo. Para mais detalhes sobre como criar um projeto, consulte a documentação do Google Cloud Platform.
Se você criar um novo projeto, será solicitado que vincule uma conta de faturamento a esse projeto. Se você estiver usando um projeto atual, verifique se o faturamento está ativado.

Aprenda a confirmar se o faturamento está ativado para o projeto.

Observação: é necessário ativar o faturamento para usar a API Cloud Speech-to-Text, mas nenhuma cobrança será feita a menos que você ultrapasse a cota sem custos. Saiba mais na página de preços.
Depois de selecionar um projeto e vinculá-lo a uma conta de faturamento, é possível ativar a API Cloud Speech-to-Text. Acesse a barra Pesquisar produtos e recursos na parte superior da página e digite speech.
Selecione a API Cloud Speech-to-Text na lista de resultados.
Para testar a Cloud Speech-to-Text sem vinculá-la ao projeto, escolha a opção TESTAR ESTA API. Para ativar a API Cloud Speech-to-Text para uso com o projeto, clique em ATIVAR.

Papéis necessários

Para receber as permissões necessárias para criar uma transcrição, peça ao administrador para conceder a você o papel do IAM de Administrador do Storage (roles/storage.admin) no projeto. Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém as permissões necessárias para criar uma transcrição. Para acessar as permissões exatas que são necessárias, abra a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para criar uma transcrição:

storage.buckets.get
storage.buckets.list
storage.buckets.update
No nível do projeto ou do bucket:
- storage.objects.create
- storage.objects.delete
- storage.objects.get
- storage.objects.list
- storage.objects.update

Essas permissões também podem ser concedidas com papéis personalizados ou outros papéis predefinidos.

Criar uma transcrição

Use o console do Google Cloud para criar uma transcrição.

Configuração de áudio

Abra a visão geral da Cloud Speech-to-Text.
Clique em Criar transcrição.
- Se esta for a primeira vez que você usa o console, será solicitado onde no Cloud Storage você quer armazenar suas configurações e transcrições.
Na página Criar transcrição, Faça upload de um arquivo de áudio de origem. É possível escolher um arquivo que já está salvo no Cloud Storage ou fazer upload de um novo para o destino especificado do Cloud Storage.
Selecione o tipo de codificação do arquivo de áudio enviado.
Especifique a taxa de amostragem.
Clique em Continuar. Você será direcionado para Opções de transcrição.

Opções de transcrição

Selecione o código do idioma do áudio de origem. Este é o idioma falado na gravação.
Escolha o modelo de transcrição que você quer usar no arquivo. A opção Padrão é pré-selecionada e, geralmente, nenhuma alteração é necessária, mas fazer a correspondência do modelo com o tipo de áudio pode resultar em maior acurácia. Observe que os custos do modelo variam.
Clique em Continuar. Você será direcionado para Adaptação do modelo.

Adaptação do modelo (opcional)

Se o áudio de origem tiver itens como palavras raras, nomes próprios ou termos reservados, e você tiver problemas com o reconhecimento, a adaptação do modelo poderá ajudar.

Marque Ativar a adaptação do modelo.
Escolha Recurso de adaptação única.
Adicione frases relevantes e atribua a elas um valor de otimização.
Na coluna à esquerda, clique em Enviar para criar a transcrição.

Revisar a transcrição

Dependendo do tamanho do arquivo de áudio, a transcrição pode levar de minutos a horas para ser criada. Depois que a transcrição for criada, ela estará pronta para revisão. Classificar a tabela por carimbo de data/hora ajuda você a localizar as transcrições recentes.

Clique no Nome da transcrição que você quer revisar.
Compare o texto da Transcrição com o arquivo de áudio.
Se você quiser fazer alterações, clique em Reutilizar configuração. Isso levará ao fluxo Criar transcrição com as mesmas opções pré-selecionadas, permitindo que você altere alguns itens, crie uma nova transcrição e compare os resultados.

A seguir

Pratique a transcrição de arquivos de áudio curtos.
Saiba como agrupar arquivos de áudio longos para reconhecimento de fala.
Aprenda a transcrever áudios de streaming, por exemplo, de um microfone.
Comece a usar a Cloud STT no seu idioma preferencial com uma biblioteca de cliente da Cloud STT.
Trabalhe com os aplicativos de amostra.
Consulte a documentação de práticas recomendadas para ter melhor desempenho e acurácia e conferir outras dicas.