Comparer les modèles de transcription

Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Cloud Speech-to-Text.

Sélectionner le bon modèle de transcription

Cloud Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).

Cloud STT est doté de modèles spécialisés entraînés à partir de données audio provenant de sources spécifiques. Ces modèles fournissent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires aux données sur lesquelles ils ont été entraînés.

Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec l'API Cloud Speech-to-Text V2.

Nom du modèle	Description
`chirp_3`	Utilisez la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google. Ils sont conçus pour répondre aux besoins de vos utilisateurs en fonction de leurs commentaires et de leur expérience. Chirp 3 offre une justesse et une vitesse supérieures à celles des modèles Chirp précédents et propose également l'identification des locuteurs et la détection automatique de la langue.
`chirp_2`	Utilisez le modèle de reconnaissance vocale universel (USM, Universal Large Speech Model), qui s'appuie sur notre technologie de grand modèle de langage (LLM) pour le traitement en streaming et par lot. Il permet d'obtenir des transcriptions et des traductions de contenus linguistiques variés et fournit des fonctionnalités multilingues.
`telephony`	Utilisez ce modèle pour transcrire le contenu audio d'un appel téléphonique, généralement enregistré à un taux d'échantillonnage de 8 kHz. Il est idéal pour les applications de service client, de téléconférence et de kiosque automatisé.

Sélectionner un modèle pour la transcription audio

Pour transcrire des extraits audio courts (de moins de 60 secondes), la reconnaissance synchrone est la méthode la plus simple. Ce modèle traite votre contenu audio et renvoie le résultat de la transcription complète dans une seule réponse une fois que l'ensemble du contenu audio a été traité.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Pour transcrire des fichiers audio de plus de 60 secondes ou de l'audio en temps réel, vous pouvez utiliser l'une des méthodes suivantes :

Reconnaissance par lot : idéale pour transcrire de longs fichiers audio (de quelques minutes à plusieurs heures) stockés dans un bucket Cloud Storage. Il s'agit d'une opération asynchrone. Pour en savoir plus sur la reconnaissance par lot, consultez Reconnaissance par lot.

Reconnaissance en streaming : idéale pour capturer et transcrire de l'audio en temps réel, par exemple à partir d'un flux de micro ou d'un flux en direct. Pour en savoir plus sur la reconnaissance en streaming, consultez Reconnaissance en streaming.

Étapes suivantes

Découvrez comment transcrire du contenu audio diffusé en streaming.
Découvrez comment transcrire des fichiers audio longs.
Découvrez comment transcrire des fichiers audio courts.
Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la justesse, consultez la documentation sur les bonnes pratiques.

Comparer les modèles de transcription Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Sélectionner le bon modèle de transcription

Sélectionner un modèle pour la transcription audio

Python

Étapes suivantes

Comparer les modèles de transcription