Cette page a été traduite par l'API Cloud Translation.

Comparer les modèles de transcription

Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Speech-to-Text.

Sélectionner le bon modèle de transcription

Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).

Speech-to-Text possède des modèles spécialisés qui sont entraînés à partir de données audio provenant de sources spécifiques. Ces modèles fournissent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires aux données sur lesquelles ils ont été entraînés.

Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec l'API Speech-to-Text V2.

Nom du modèle	Description
`chirp_3`	Utilisez la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google, conçus pour répondre aux besoins de vos utilisateurs en fonction de leurs commentaires et de leur expérience. Chirp 3 offre une précision et une vitesse améliorées par rapport aux modèles Chirp précédents, ainsi que la diarisation et la détection automatique de la langue.
`chirp_2`	Utilisez le modèle de reconnaissance vocale universel (USM, Universal Large Speech Model) fourni par notre technologie de grand modèle de langage (LLM) pour le streaming et le traitement par lot. Il permet d'obtenir des transcriptions et des traductions dans des contenus linguistiques variés et des fonctionnalités multilingues.
`telephony`	Utilisez ce modèle pour les données audio provenant d'un appel téléphonique audio, généralement enregistrées à un taux d'échantillonnage de 8 kHz. Idéal pour le service client, les applications de téléconférence et les applications de kiosque automatisées.

Sélectionner un modèle pour la transcription audio

Pour transcrire des extraits audio courts (moins de 60 secondes), la reconnaissance synchrone est la méthode la plus simple. Il traite votre contenu audio et renvoie le résultat de la transcription complète dans une seule réponse une fois que tout le contenu audio a été traité.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Pour transcrire des fichiers audio de plus de 60 secondes ou de l'audio en temps réel, vous pouvez utiliser l'une des méthodes suivantes :

Reconnaissance par lot : idéale pour transcrire de longs fichiers audio (de quelques minutes à plusieurs heures) stockés dans un bucket Cloud Storage. Il s'agit d'une opération asynchrone. Pour en savoir plus sur la reconnaissance par lot, consultez Reconnaissance par lot.

Reconnaissance en streaming : idéale pour capturer et transcrire de l'audio en temps réel, par exemple à partir d'un flux de micro ou d'un flux en direct. Pour en savoir plus sur la reconnaissance en streaming, consultez Reconnaissance en streaming.

Étapes suivantes

Découvrez comment transcrire du contenu audio diffusé en streaming.
Découvrez comment transcrire des fichiers audio longs.
Découvrez comment transcrire des fichiers audio courts.
Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.

Comparer les modèles de transcription Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Sélectionner le bon modèle de transcription

Sélectionner un modèle pour la transcription audio

Python

Étapes suivantes

Comparer les modèles de transcription