Esta página demonstra como transcrever ficheiros de áudio longos (com mais de 1 minuto) para texto através da Cloud Speech-to-Text API e do reconhecimento de voz assíncrono.
Acerca do reconhecimento de voz assíncrono
O reconhecimento de voz assíncrono inicia uma operação de processamento de áudio de longa duração. Use o reconhecimento de voz assíncrono para transcrever áudio com mais de 60 segundos. Para áudio mais curto, o reconhecimento de voz síncrono é mais rápido e simples. O limite superior para o reconhecimento de voz assíncrono é de 480 minutos.
Cloud Speech-to-Text e processamento assíncrono
O conteúdo de áudio pode ser enviado diretamente para o Cloud Speech-to-Text a partir de um ficheiro local para processamento assíncrono. No entanto, o limite de tempo de áudio para ficheiros locais é de 60 segundos. A tentativa de transcrever ficheiros de áudio locais com mais de 60 segundos resulta num erro. Para usar o reconhecimento de voz assíncrono para transcrever áudio com mais de 60 segundos, tem de ter os seus dados guardados num contentor do Cloud Storage.
Pode obter os resultados da operação através do método google.longrunning.Operations. Os resultados permanecem disponíveis para obtenção durante 5 dias (120 horas). Também tem a opção de carregar os resultados diretamente para um contentor do Cloud Storage.
Transcreva ficheiros de áudio longos através de um contentor do Cloud Storage
Estes exemplos usam um contentor do Cloud Storage para armazenar a entrada de áudio não processada para o processo de transcrição de longa duração. Para ver um exemplo de uma resposta de operação
longrunningrecognize típica, consulte a documentação de referência.
Protocolo
Consulte o ponto final da API speech:longrunningrecognize para ver os detalhes
completos.
Para realizar o reconhecimento de voz síncrono, faça um pedido POST e forneça o corpo do pedido adequado. O exemplo seguinte mostra um pedido POST com curl. O exemplo usa a Google Cloud CLI para gerar um token de acesso. Para ver instruções sobre a instalação da CLI gcloud,
consulte o início rápido.
curl -X POST \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'language_code': 'en-US' }, 'audio':{ 'uri':'gs://cloud-samples-tests/speech/brooklyn.flac' } }" "https://speech.googleapis.com/v1/speech:longrunningrecognize"
Consulte a documentação de referência RecognitionConfig e RecognitionAudio para obter mais informações sobre a configuração do corpo do pedido.
Se o pedido for bem-sucedido, o servidor devolve um código de estado HTTP 200 OK e a resposta no formato JSON:
{
"name": "7612202767953098924"
}Em que name é o nome da operação de longa duração criada para o pedido.
Aguarde a conclusão do processamento. O tempo de processamento difere consoante o áudio de origem. Na maioria dos casos, recebe resultados com metade da duração do áudio de origem.
Pode obter o estado da sua operação de longa duração fazendo um pedido ao ponto final https://speech.googleapis.com/v1/operations/.GET Substitua your-operation-name pelo name
retornado do seu pedido de longrunningrecognize.
curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ "https://speech.googleapis.com/v1/operations/your-operation-name"
Se o pedido for bem-sucedido, o servidor devolve um código de estado HTTP 200 OK e a resposta no formato JSON:
{ "name": "7612202767953098924", "metadata": { "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeMetadata", "progressPercent": 100, "startTime": "2017-07-20T16:36:55.033650Z", "lastUpdateTime": "2017-07-20T16:37:17.158630Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse", "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.96096134, } ] }, { "alternatives": [ { ... } ] } ] } }
Se a operação não estiver concluída, pode sondar o ponto final fazendo repetidamente o pedido GET até que a propriedade done da resposta seja true.
gcloud
Consulte o comando
recognize-long-running para ver os detalhes completos.
Para realizar o reconhecimento de voz assíncrono, use a Google Cloud CLI, indicando o caminho de um ficheiro local ou um URL do Cloud Storage.
gcloud ml speech recognize-long-running \ 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US' --async
Se o pedido for bem-sucedido, o servidor devolve o ID da operação de longa duração no formato JSON.
{
"name": OPERATION_ID
}Em seguida, pode obter informações sobre a operação executando o seguinte comando.
gcloud ml speech operations describe OPERATION_ID
Também pode sondar a operação até que seja concluída executando o seguinte comando.
gcloud ml speech operations wait OPERATION_ID
Após a conclusão da operação, a operação devolve uma transcrição do áudio no formato JSON.
{ "@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse", "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
Go
Para saber como instalar e usar a biblioteca cliente do Cloud STT, consulte as bibliotecas cliente do Cloud STT. Para mais informações, consulte a documentação de referência da API Go Cloud STT.
Para se autenticar no Cloud STT, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente do Cloud STT, consulte as bibliotecas cliente do Cloud STT. Para mais informações, consulte a documentação de referência da API Java Cloud STT.
Para se autenticar no Cloud STT, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente do Cloud STT, consulte as bibliotecas cliente do Cloud STT. Para mais informações, consulte a documentação de referência da API Node.js Cloud STT.
Para se autenticar no Cloud STT, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente do Cloud STT, consulte as bibliotecas cliente do Cloud STT. Para mais informações, consulte a documentação de referência da API Python Cloud STT.
Para se autenticar no Cloud STT, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas de cliente e, em seguida, visite a documentação de referência do Cloud STT para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do STT do Google Cloud para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, de seguida, visite a documentação de referência do Cloud STT para Ruby.
Carregue os resultados da transcrição para um contentor do Cloud Storage
O Cloud Speech-to-Text suporta o carregamento dos resultados do reconhecimento de longa duração diretamente para um contentor do Cloud Storage. Se implementar esta funcionalidade com acionadores do Cloud Storage, os carregamentos do Cloud Storage podem acionar notificações que chamam funções do Cloud e eliminam a necessidade de sondar o Cloud Speech-to-Text para obter resultados de reconhecimento.
Para carregar os resultados para um contentor do Cloud Storage, forneça a configuração de saída TranscriptOutputConfig opcional no seu pedido de reconhecimento de longa duração.
message TranscriptOutputConfig {
oneof output_type {
// Specifies a Cloud Storage URI for the recognition results. Must be
// specified in the format: `gs://bucket_name/object_name`
string gcs_uri = 1;
}
}
Protocolo
Consulte o ponto final da API longrunningrecognize
para ver os detalhes completos.
O exemplo seguinte mostra como enviar um pedido POST usando curl, em que o corpo do pedido especifica o caminho para um contentor do Cloud Storage. Os resultados são carregados para esta localização como um ficheiro JSON que armazena
SpeechRecognitionResult.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': {...}, 'output_config': { 'gcs_uri':'gs://bucket/result-output-path.json' }, 'audio': { 'uri': 'gs://bucket/audio-path' } }" "https://speech.googleapis.com/v2/speech:longrunningrecognize"
O elemento LongRunningRecognizeResponse
inclui o caminho para o contentor do Cloud Storage onde a tentativa de carregamento foi feita. Se o carregamento não tiver sido bem-sucedido, é devolvido um erro de saída. Se já existir um ficheiro com o mesmo nome, o carregamento escreve os resultados num novo ficheiro com uma indicação de data/hora como sufixo.
{
...
"metadata": {
...
"outputConfig": {...}
},
...
"response": {
...
"results": [...],
"outputConfig": {
"gcs_uri":"gs://bucket/result-output-path"
},
"outputError": {...}
}
}
Experimente
Se está a usar o Google Cloud pela primeira vez, crie uma conta para avaliar o desempenho do STT do Google Cloud em cenários reais. Os novos clientes também recebem 300 USD em créditos gratuitos para executar, testar e implementar cargas de trabalho.
Experimente o STT na nuvem gratuitamente