Compare modelos de transcrição

Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Cloud Speech-to-Text.

Selecione o modelo de transcrição certo

O Cloud Speech-to-Text deteta palavras num clipe de áudio comparando a entrada com um dos vários modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.

O STT na nuvem tem modelos especializados que são preparados a partir de áudio para fontes específicas. Estes modelos oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio aos dados com os quais foram preparados.

A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com a API Cloud Speech-to-Text V2.

Nome do modelo	Descrição
`chirp_3`	Use a geração mais recente dos modelos generativos específicos de reconhecimento automático de voz (RAV) multilingue da Google, concebidos para satisfazer as necessidades dos seus utilizadores com base no feedback e na experiência. O Chirp 3 oferece maior precisão e velocidade em comparação com os modelos Chirp anteriores, além de fornecer diarização e deteção automática de idiomas.
`chirp_2`	Use o modelo de voz universal (USM) que é alimentado pela nossa tecnologia de grande modelo de linguagem (GML) para streaming e processamento em lote, e fornece transcrições e traduções em diversos conteúdos linguísticos e capacidades multilingues.
`telephony`	Use este modelo para áudio proveniente de uma chamada telefónica de áudio, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para serviço de apoio ao cliente, teleconferências e aplicações de quiosque automatizadas.

Selecione um modelo para a transcrição de áudio

Para transcrever pequenos clipes de áudio (com menos de 60 segundos), o reconhecimento síncrono é o método mais simples. Processa o seu áudio e devolve o resultado da transcrição completo numa única resposta depois de todo o áudio ter sido processado.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcrever ficheiros de áudio com mais de 60 segundos ou para transcrever áudio em tempo real, pode usar um dos seguintes métodos:

Reconhecimento em lote: ideal para transcrever ficheiros de áudio longos (de minutos a horas) armazenados num contentor do Cloud Storage. Esta é uma operação assíncrona. Para saber mais sobre o reconhecimento em lote, consulte o artigo Reconhecimento em lote.

Reconhecimento de streaming: perfeito para capturar e transcrever áudio em tempo real, como a partir de um feed de microfone ou uma stream em direto. Para saber mais sobre o reconhecimento de streaming, consulte o artigo Reconhecimento de streaming.

O que se segue?

Saiba como transcrever áudio em streaming.
Saiba como transcrever ficheiros de áudio longos.
Saiba como transcrever ficheiros de áudio curtos.
Para o melhor desempenho, precisão e outras sugestões, consulte a documentação de práticas recomendadas.

Compare modelos de transcrição Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Selecione o modelo de transcrição certo

Selecione um modelo para a transcrição de áudio

Python

O que se segue?

Compare modelos de transcrição