Comparar modelos de transcrição

Nesta página, você aprende a usar um modelo de machine learning específico para fazer solicitações de transcrição de áudio à Speech-to-Text.

Selecionar o modelo de transcrição certo

A Speech-to-Text detecta palavras em clipes de áudio comparando a entrada com um dos vários modelos de machine learning. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).

O Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.

A tabela a seguir mostra os modelos de transcrição disponíveis para uso com a API Speech-to-Text V2.

Nome do modelo Descrição
chirp_3 Use a geração mais recente dos modelos generativos multilíngues específicos de reconhecimento automático de fala (ASR, na sigla em inglês) do Google, projetados para atender às necessidades dos usuários com base em feedback e experiência. O Chirp 3 oferece mais precisão e velocidade do que os modelos anteriores do Chirp, além de diarização e detecção automática de idioma.
chirp_2 Use o Modelo de Fala Universal grande (USM) com tecnologia de modelo de linguagem grande (LLM) para streaming e lote, além de transcrições e traduções em diversos conteúdos linguísticos e recursos multilíngues.
telephony Use esse modelo para áudio que se originou de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados.

Selecionar um modelo para a transcrição de áudio

Para transcrever clipes de áudio curtos (menos de 60 segundos), o reconhecimento síncrono é o método mais simples. Ele processa o áudio e retorna o resultado completo da transcrição em uma única resposta depois que todo o áudio é processado.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcrever arquivos de áudio com mais de 60 segundos ou em tempo real, use um dos seguintes métodos:

  • Reconhecimento em lote: ideal para transcrever arquivos de áudio longos (de minutos a horas) armazenados em um bucket do Cloud Storage. Essa é uma operação assíncrona. Para saber mais sobre o reconhecimento em lote, consulte Reconhecimento em lote.
  1. Reconhecimento de streaming: perfeito para capturar e transcrever áudio em tempo real, como de um feed de microfone ou uma transmissão ao vivo. Para saber mais sobre o reconhecimento de streaming, consulte Reconhecimento de streaming.

A seguir