Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para a Cloud Speech-to-Text.
Selecionar o modelo de transcrição certo
A Cloud Speech-to-Text detecta palavras em clipes de áudio comparando a entrada com um dos vários modelos de machine learning. Cada modelo foi treinado pela análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).
A Cloud STT tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.
A tabela a seguir mostra os modelos de transcrição disponíveis para uso com a API Cloud Speech-to-Text V2.
| Nome do modelo | Descrição |
|---|---|
chirp_3 |
Use a geração mais recente dos modelos generativos multilíngues de reconhecimento automático de fala (ASR, na sigla em inglês) do Google, projetados para atender às necessidades dos usuários com base em feedback e experiência. O Chirp 3 oferece mais acurácia e velocidade do que os modelos anteriores do Chirp, além de diarização e detecção automática de idioma. |
chirp_2 |
Use o Modelo de Fala Universal grande (USM, na sigla em inglês) com tecnologia de modelo de linguagem grande (LLM, na sigla em inglês) para streaming e lote, e tenha transcrições e traduções de vários conteúdos linguísticos e recursos multilíngues. |
telephony |
Use esse modelo para áudio originado de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados. |
Selecionar um modelo para a transcrição de áudio
Para transcrever clipes de áudio curtos (menos de 60 segundos), o reconhecimento síncrono é o método mais simples. Ele processa o áudio e retorna o resultado completo da transcrição em uma única resposta depois que todo o áudio é processado.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Para transcrever arquivos de áudio com mais de 60 segundos ou em tempo real, use um dos seguintes métodos:
- Reconhecimento em lote: ideal para transcrever arquivos de áudio longos (de minutos a horas) armazenados em um bucket do Cloud Storage. Essa é uma operação assíncrona. Para saber mais sobre o reconhecimento em lote, consulte Reconhecimento em lote.
- Reconhecimento de streaming: perfeito para capturar e transcrever áudio em tempo real, por exemplo, de um feed de microfone ou uma transmissão ao vivo. Para saber mais sobre o reconhecimento de streaming, consulte Reconhecimento de streaming.
A seguir
- Aprenda a transcrever um áudio de streaming.
- Aprenda a transcrever arquivos de áudio longos.
- Aprenda a transcrever arquivos de áudio curtos.
- Para otimizar o desempenho e a acurácia e ver outras dicas, consulte a documentação sobre práticas recomendadas.