Comparar modelos de transcripción

En esta página se describe cómo usar un modelo de aprendizaje automático específico para enviar solicitudes de transcripción de audio a Speech-to-Text.

Seleccionar el modelo de transcripción adecuado

Speech-to-Text detecta palabras en un clip de audio comparando la entrada con uno de los muchos modelos de aprendizaje automático. Cada modelo se ha entrenado analizando millones de ejemplos. En este caso, se trata de muchísimas grabaciones de audio de personas hablando.

Speech-to-Text tiene modelos especializados que se entrenan a partir de audio de fuentes específicas. Estos modelos ofrecen mejores resultados cuando se aplican a tipos de datos de audio similares a los datos con los que se han entrenado.

En la siguiente tabla se muestran los modelos de transcripción que se pueden usar con la API Speech-to-Text V2.

Nombre del modelo Descripción
chirp_3 Usa la última generación de modelos generativos multilingües específicos de reconocimiento automático del habla (RAA) de Google, diseñados para satisfacer las necesidades de tus usuarios en función de sus comentarios y su experiencia. Chirp 3 ofrece una mayor precisión y velocidad que los modelos anteriores de Chirp, así como la diarización y la detección automática de idiomas.
chirp_2 Usa el modelo de voz extenso universal (USM), que se basa en nuestra tecnología de modelo de lenguaje extenso (LLM), para la transmisión y el procesamiento por lotes. Además, ofrece transcripciones y traducciones de contenido lingüístico diverso y funciones multilingües.
telephony Usa este modelo para el audio que procede de una llamada telefónica, normalmente grabada a una frecuencia de muestreo de 8 kHz. Es ideal para el servicio de atención al cliente, las teleconferencias y las aplicaciones de kioscos automatizadas.

Seleccionar un modelo para la transcripción de audio

Para transcribir clips de audio cortos (de menos de 60 segundos), el método más sencillo es el reconocimiento síncrono. Procesa el audio y devuelve el resultado de la transcripción completa en una sola respuesta después de que se haya procesado todo el audio.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcribir archivos de audio de más de 60 segundos o transcribir audio en tiempo real, puedes usar uno de los siguientes métodos:

  • Reconocimiento por lotes: ideal para transcribir archivos de audio largos (de minutos a horas) almacenados en un segmento de Cloud Storage. Se trata de una operación asíncrona. Para obtener más información sobre el reconocimiento por lotes, consulta Reconocimiento por lotes.
  1. Reconocimiento de streaming: es perfecto para captar y transcribir audio en tiempo real, como el de un micrófono o una emisión en directo. Para obtener más información sobre el reconocimiento de streaming, consulta Reconocimiento de streaming.

Siguientes pasos