Cette page explique comment utiliser un modèle de machine learning spécifique pour les requêtes de transcription audio dans Speech-to-Text.
Sélectionner le bon modèle de transcription
Speech-to-Text détecte les mots prononcés dans un extrait audio en comparant les entrées à l'un des nombreux modèles de machine learning. Chaque modèle a été entraîné via l'analyse de millions d'exemples (dans ce cas, de très nombreux enregistrements audio de personnes qui parlent).
Speech-to-Text possède des modèles spécialisés qui sont entraînés à partir de données audio provenant de sources spécifiques. Ces modèles fournissent de meilleurs résultats lorsqu'ils sont appliqués à des types de données audio similaires aux données sur lesquelles ils ont été entraînés.
Le tableau suivant présente les modèles de transcription disponibles pour une utilisation avec l'API Speech-to-Text V2.
Nom du modèle | Description |
---|---|
chirp_3 |
Utilisez la dernière génération de modèles génératifs multilingues de reconnaissance vocale automatique (ASR) de Google, conçus pour répondre aux besoins de vos utilisateurs en fonction de leurs commentaires et de leur expérience. Chirp 3 offre une précision et une vitesse améliorées par rapport aux modèles Chirp précédents, ainsi que la diarisation et la détection automatique de la langue. |
chirp_2 |
Utilisez le modèle de reconnaissance vocale universel (USM, Universal Large Speech Model) fourni par notre technologie de grand modèle de langage (LLM) pour le streaming et le traitement par lot. Il permet d'obtenir des transcriptions et des traductions dans des contenus linguistiques variés et des fonctionnalités multilingues. |
telephony |
Utilisez ce modèle pour les données audio provenant d'un appel téléphonique audio, généralement enregistrées à un taux d'échantillonnage de 8 kHz. Idéal pour le service client, les applications de téléconférence et les applications de kiosque automatisées. |
Sélectionner un modèle pour la transcription audio
Pour transcrire des extraits audio courts (moins de 60 secondes), la reconnaissance synchrone est la méthode la plus simple. Il traite votre contenu audio et renvoie le résultat de la transcription complète dans une seule réponse une fois que tout le contenu audio a été traité.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Pour transcrire des fichiers audio de plus de 60 secondes ou de l'audio en temps réel, vous pouvez utiliser l'une des méthodes suivantes :
- Reconnaissance par lot : idéale pour transcrire de longs fichiers audio (de quelques minutes à plusieurs heures) stockés dans un bucket Cloud Storage. Il s'agit d'une opération asynchrone. Pour en savoir plus sur la reconnaissance par lot, consultez Reconnaissance par lot.
- Reconnaissance en streaming : idéale pour capturer et transcrire de l'audio en temps réel, par exemple à partir d'un flux de micro ou d'un flux en direct. Pour en savoir plus sur la reconnaissance en streaming, consultez Reconnaissance en streaming.
Étapes suivantes
- Découvrez comment transcrire du contenu audio diffusé en streaming.
- Découvrez comment transcrire des fichiers audio longs.
- Découvrez comment transcrire des fichiers audio courts.
- Pour obtenir des conseils, entre autres sur l'optimisation des performances et l'amélioration de la précision, consultez la documentation relative aux bonnes pratiques.