Comparar modelos de transcrição

Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para a Cloud Speech-to-Text.

Selecionar o modelo de transcrição certo

A Cloud Speech-to-Text detecta palavras em clipes de áudio comparando a entrada com um dos vários modelos de machine learning. Cada modelo foi treinado pela análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).

A Cloud STT tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.

A tabela a seguir mostra os modelos de transcrição disponíveis para uso com a API Cloud Speech-to-Text V2.

Nome do modelo Descrição
chirp_3 Use a geração mais recente dos modelos generativos multilíngues de reconhecimento automático de fala (ASR, na sigla em inglês) do Google, projetados para atender às necessidades dos usuários com base em feedback e experiência. O Chirp 3 oferece mais acurácia e velocidade do que os modelos anteriores do Chirp, além de diarização e detecção automática de idioma.
chirp_2 Use o Modelo de Fala Universal grande (USM, na sigla em inglês) com tecnologia de modelo de linguagem grande (LLM, na sigla em inglês) para streaming e lote, e tenha transcrições e traduções de vários conteúdos linguísticos e recursos multilíngues.
telephony Use esse modelo para áudio originado de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados.

Selecionar um modelo para a transcrição de áudio

Para transcrever clipes de áudio curtos (menos de 60 segundos), o reconhecimento síncrono é o método mais simples. Ele processa o áudio e retorna o resultado completo da transcrição em uma única resposta depois que todo o áudio é processado.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcrever arquivos de áudio com mais de 60 segundos ou em tempo real, use um dos seguintes métodos:

  • Reconhecimento em lote: ideal para transcrever arquivos de áudio longos (de minutos a horas) armazenados em um bucket do Cloud Storage. Essa é uma operação assíncrona. Para saber mais sobre o reconhecimento em lote, consulte Reconhecimento em lote.
  1. Reconhecimento de streaming: perfeito para capturar e transcrever áudio em tempo real, por exemplo, de um feed de microfone ou uma transmissão ao vivo. Para saber mais sobre o reconhecimento de streaming, consulte Reconhecimento de streaming.

A seguir