Compara modelos de transcripción

En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes de transcripción de audio a Cloud Speech-to-Text.

Selecciona el modelo de transcripción adecuado

Cloud Speech-to-Text detecta palabras en un clip de audio comparando la entrada con uno de los muchos modelos de aprendizaje automático. Cada modelo se entrenó analizando millones de ejemplos, en este caso, muchísimas grabaciones de audio de personas hablando.

Cloud STT tiene modelos especializados que se entrenan a partir de audio de fuentes específicas. Estos modelos proporcionan mejores resultados cuando se aplican a tipos de datos de audio similares a los datos en los que se entrenaron.

En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con la API de Cloud Speech-to-Text V2.

Nombre del modelo Descripción
chirp_3 Usa la última generación de modelos generativos multilingües específicos para el reconocimiento de voz automático (RAV) de Google, diseñados para satisfacer las necesidades de los usuarios en función de sus comentarios y experiencias. Chirp 3 ofrece mayor precisión y velocidad que los modelos anteriores de Chirp, y proporciona diarización y detección automática de idiomas.
chirp_2 Usa el modelo de voz universal (USM) grande que funciona con nuestra tecnología de modelo de lenguaje grande (LLM) para transmisiones y procesamiento por lotes, y proporciona transcripciones y traducciones en diversos contenidos lingüísticos y capacidades multilingües.
telephony Usa este modelo para audio que se origina a partir de una llamada telefónica de audio, que generalmente se graba con una tasa de muestreo de 8 kHz. Es ideal para atención al cliente, teleconferencias y aplicaciones de kiosco automatizadas.

Selecciona un modelo para la transcripción de audio

Para transcribir clips de audio cortos (de menos de 60 segundos), el reconocimiento síncrono es el método más sencillo. Procesa tu audio y devuelve el resultado de la transcripción completa en una sola respuesta después de que se haya procesado todo el audio.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Para transcribir archivos de audio de más de 60 segundos o transcribir audio en tiempo real, puedes usar uno de los siguientes métodos:

  • Reconocimiento por lotes: Es ideal para transcribir archivos de audio largos (de minutos a horas) almacenados en un bucket de Cloud Storage. Esta es una operación asíncrona. Para obtener más información sobre el reconocimiento por lotes, consulta Reconocimiento por lotes.
  1. Reconocimiento de transmisión: Es ideal para capturar y transcribir audio en tiempo real, como el de un feed de micrófono o una transmisión en vivo. Para obtener más información sobre el reconocimiento de transmisión, consulta Streaming Recognition.

¿Qué sigue?