Compara los modelos de transcripción

En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes enviadas a Cloud Speech-to-Text para transcribir audio.

Selecciona el modelo de transcripción adecuado

Cloud Speech-to-Text detecta palabras en un clip de audio con la comparación de los datos recibidos con uno de muchos modelos de aprendizaje automático. Cada modelo se entrenó con el análisis de millones de ejemplos, en este caso, muchísimas grabaciones de audio de voces de fondo.

Cloud STT tiene modelos especializados que se entrenan a partir de audio de fuentes específicas. Estos modelos proporcionan mejores resultados cuando se aplican a tipos de datos de audio similares a aquellos con los que se entrenaron.

En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con la API de Cloud Speech-to-Text V2.

Nombre del modelo Descripción
chirp_3 Usa la generación más reciente de modelos generativos multilingües específicos para el reconocimiento de voz automático (ASR) de Google, diseñados para satisfacer las necesidades de los usuarios en función de sus comentarios y experiencias. Chirp 3 proporciona mayor exactitud y velocidad que los modelos anteriores de Chirp. Además, ofrece la detección automática de idioma.
chirp_2 Usa el modelo de voz universal (USM) grande que funciona con nuestra tecnología de modelo de lenguaje grande (LLM). Este modelo admite la transmisión y el procesamiento por lotes, y proporciona transcripciones y traducciones en diversos contenidos lingüísticos y capacidades multilingües.
telephony Usa este modelo para audio que se originó a partir de una llamada telefónica, que generalmente se graba con una tasa de muestreo de 8 kHz. Es ideal para atención al cliente, teleconferencias y aplicaciones de kiosco automatizadas.

Selecciona un modelo para la transcripción de audio

Para transcribir clips de audio cortos (de menos de 60 segundos), el reconocimiento síncrono es el método más sencillo. Procesa el audio y devuelve el resultado de la transcripción completa en una sola respuesta después de que haya finalizado el proceso.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcribir archivos de audio de más de 60 segundos o audio en tiempo real, puedes usar uno de los siguientes métodos:

  • Reconocimiento por lotes: Es ideal para transcribir archivos de audio largos (de minutos a horas) almacenados en un bucket de Cloud Storage. Esta es una operación asíncrona. Para obtener más información sobre el reconocimiento por lotes, consulta Reconocimiento por lotes.
  1. Reconocimiento de transmisión: Es ideal para capturar y transcribir audio en tiempo real, como el de un feed de micrófono o una transmisión en vivo. Para obtener más información sobre el reconocimiento de transmisión, consulta Reconocimiento de transmisión.

¿Qué sigue?