Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Speech-to-Text.
Selecione o modelo de transcrição certo
A conversão de voz em texto deteta palavras num clipe de áudio comparando a entrada com um dos muitos modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.
A API Speech-to-Text tem modelos especializados que são preparados a partir de áudio para origens específicas. Estes modelos oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio aos dados com base nos quais foram preparados.
A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com a API Speech-to-Text V2.
Nome do modelo | Descrição |
---|---|
chirp_3 |
Use a geração mais recente dos modelos generativos específicos de reconhecimento automático de voz (RAV) multilingue da Google, concebidos para satisfazer as necessidades dos seus utilizadores com base no feedback e na experiência. O Chirp 3 oferece maior precisão e velocidade em comparação com os modelos Chirp anteriores, além de fornecer diarização e deteção automática de idioma. |
chirp_2 |
Use o modelo de voz universal (USM) que é alimentado pela nossa tecnologia de modelo de linguagem (conteúdo extenso) (MDIs/CEs) para streaming e processamento em lote, e fornece transcrições e traduções em diversos conteúdos linguísticos e capacidades multilingues. |
telephony |
Use este modelo para áudio proveniente de uma chamada telefónica de áudio, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para serviço de apoio ao cliente, teleconferências e aplicações de quiosque automatizadas. |
Selecione um modelo para a transcrição de áudio
Para transcrever pequenos clipes de áudio (com menos de 60 segundos), o reconhecimento síncrono é o método mais simples. Processa o seu áudio e devolve o resultado da transcrição completo numa única resposta após o processamento de todo o áudio.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Para transcrever ficheiros de áudio com mais de 60 segundos ou para transcrever áudio em tempo real, pode usar um dos seguintes métodos:
- Reconhecimento em lote: ideal para transcrever ficheiros de áudio longos (de minutos a horas) armazenados num contentor do Cloud Storage. Esta é uma operação assíncrona. Para saber mais sobre o reconhecimento em lote, consulte o artigo Reconhecimento em lote.
- Reconhecimento de streaming: perfeito para capturar e transcrever áudio em tempo real, como a partir de um feed de microfone ou uma stream em direto. Para saber mais sobre o reconhecimento de streaming, consulte o artigo Reconhecimento de streaming.
O que se segue?
- Saiba como transcrever áudio em streaming.
- Saiba como transcrever ficheiros de áudio longos.
- Saiba como transcrever ficheiros de áudio curtos.
- Para o melhor desempenho, precisão e outras sugestões, consulte a documentação de práticas recomendadas.