Compare modelos de transcrição

Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Speech-to-Text.

Selecione o modelo de transcrição certo

A conversão de voz em texto deteta palavras num clipe de áudio comparando a entrada com um dos muitos modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.

A API Speech-to-Text tem modelos especializados que são preparados a partir de áudio para origens específicas. Estes modelos oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio aos dados com base nos quais foram preparados.

A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com a API Speech-to-Text V2.

Nome do modelo Descrição
chirp_3 Use a geração mais recente dos modelos generativos específicos de reconhecimento automático de voz (RAV) multilingue da Google, concebidos para satisfazer as necessidades dos seus utilizadores com base no feedback e na experiência. O Chirp 3 oferece maior precisão e velocidade em comparação com os modelos Chirp anteriores, além de fornecer diarização e deteção automática de idioma.
chirp_2 Use o modelo de voz universal (USM) que é alimentado pela nossa tecnologia de modelo de linguagem (conteúdo extenso) (MDIs/CEs) para streaming e processamento em lote, e fornece transcrições e traduções em diversos conteúdos linguísticos e capacidades multilingues.
telephony Use este modelo para áudio proveniente de uma chamada telefónica de áudio, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para serviço de apoio ao cliente, teleconferências e aplicações de quiosque automatizadas.

Selecione um modelo para a transcrição de áudio

Para transcrever pequenos clipes de áudio (com menos de 60 segundos), o reconhecimento síncrono é o método mais simples. Processa o seu áudio e devolve o resultado da transcrição completo numa única resposta após o processamento de todo o áudio.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcrever ficheiros de áudio com mais de 60 segundos ou para transcrever áudio em tempo real, pode usar um dos seguintes métodos:

  • Reconhecimento em lote: ideal para transcrever ficheiros de áudio longos (de minutos a horas) armazenados num contentor do Cloud Storage. Esta é uma operação assíncrona. Para saber mais sobre o reconhecimento em lote, consulte o artigo Reconhecimento em lote.
  1. Reconhecimento de streaming: perfeito para capturar e transcrever áudio em tempo real, como a partir de um feed de microfone ou uma stream em direto. Para saber mais sobre o reconhecimento de streaming, consulte o artigo Reconhecimento de streaming.

O que se segue?