En esta página, se describe cómo usar un modelo de aprendizaje automático específico para las solicitudes de transcripción de audio a Speech-to-Text.
Selecciona el modelo de transcripción adecuado
Speech-to-Text detecta palabras en un clip de audio mediante la comparación de los datos de entrada en uno de muchos modelos de aprendizaje automático. Cada modelo se ha entrenado mediante el análisis de millones de ejemplos, en este caso, muchísimas grabaciones de audio de personas hablando.
Speech-to-Text tiene modelos especializados que se entrenan a partir de audio para fuentes específicas. Estos modelos proporcionan mejores resultados cuando se aplican a tipos de datos de audio similares a los datos en los que se entrenaron.
En la siguiente tabla, se muestran los modelos de transcripción disponibles para usar con la API de Speech-to-Text V2.
Nombre del modelo | Descripción |
---|---|
chirp_3 |
Usa la última generación de modelos generativos multilingües específicos para el reconocimiento de voz automático (RAA) de Google, diseñados para satisfacer las necesidades de los usuarios en función de sus comentarios y experiencias. Chirp 3 ofrece mayor precisión y velocidad que los modelos anteriores de Chirp, y proporciona diarización y detección automática de idiomas. |
chirp_2 |
Usa el modelo de voz universal (USM) grande que funciona con nuestra tecnología de modelo de lenguaje grande (LLM) para la transmisión y el procesamiento por lotes, y proporciona transcripciones y traducciones en diversos contenidos lingüísticos y capacidades multilingües. |
telephony |
Usa este modelo para audio que se origina a partir de una llamada telefónica de audio, que generalmente se graba con una tasa de muestreo de 8 kHz. Es ideal para atención al cliente, teleconferencias y aplicaciones de kiosco automatizadas. |
Selecciona un modelo para la transcripción de audio
Para transcribir clips de audio cortos (de menos de 60 segundos), el reconocimiento síncrono es el método más sencillo. Procesa tu audio y devuelve el resultado completo de la transcripción en una sola respuesta después de que se haya procesado todo el audio.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Para transcribir archivos de audio de más de 60 segundos o transcribir audio en tiempo real, puedes usar uno de los siguientes métodos:
- Batch Recognition: Es ideal para transcribir archivos de audio largos (de minutos a horas) almacenados en un bucket de Cloud Storage. Esta es una operación asíncrona. Para obtener más información sobre el reconocimiento por lotes, consulta Reconocimiento por lotes.
- Reconocimiento de transmisión: Es ideal para capturar y transcribir audio en tiempo real, como el de un feed de micrófono o una transmisión en vivo. Para obtener más información sobre el reconocimiento de transmisión, consulta Reconocimiento de transmisión.
¿Qué sigue?
- Obtén más información sobre cómo transcribir audio con transmisión continua.
- Obtén información sobre cómo transcribir archivos de audio largos.
- Obtén más información para transcribir archivos de audio cortos.
- Para mejorar el rendimiento y la exactitud, así como ver otras sugerencias, consulta la documentación de prácticas recomendadas.