Auf dieser Seite wird beschrieben, wie Sie ein bestimmtes Modell für maschinelles Lernen für Audiotranskriptionsanfragen an Speech-to-Text verwenden.
Das richtige Transkriptionsmodell auswählen
Speech-to-Text erkennt Wörter in einem Audioclip durch den Vergleich der Eingabe mit einem von vielen Modellen für maschinelles Lernen. Jedes Modell wurde durch die Analyse von Millionen Beispielen trainiert – in diesem Fall durch sehr viele Audioaufnahmen von sprechenden Personen.
Speech-to-Text verfügt über spezielle Modelle, die anhand von Audiodaten aus bestimmten Quellen trainiert wurden. Diese Modelle liefern bessere Ergebnisse, wenn sie auf ähnliche Audiodaten wie die Daten angewendet werden, mit denen sie trainiert wurden.
Die folgende Tabelle zeigt die Transkriptionsmodelle, die für die Speech-to-Text V2 API verfügbar sind.
Modellname | Beschreibung |
---|---|
chirp_3 |
Nutzen Sie die neueste Generation der mehrsprachigen generativen Modelle für die automatische Spracherkennung (ASR) von Google, die auf Grundlage von Feedback und Erfahrung auf die Bedürfnisse Ihrer Nutzer zugeschnitten sind. Chirp 3 bietet eine höhere Genauigkeit und Geschwindigkeit als frühere Chirp-Modelle und ermöglicht die Sprecherzuordnung und automatische Spracherkennung. |
chirp_2 |
Verwenden Sie das Universal Speech Model (USM), das auf unserer LLM-Technologie (Large Language Model) basiert und Transkriptionen und Übersetzungen in verschiedenen sprachlichen Inhalten und mehrsprachigen Funktionen für Streaming und Batch bietet. |
telephony |
Verwenden Sie dieses Modell für Audiodaten, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. Ideal für Kundenservice, Telefonkonferenzen und automatisierte Kioskanwendungen. |
Ein Modell für die Audiotranskription wählen
Für die Transkription kurzer Audioclips (unter 60 Sekunden) ist die synchrone Erkennung die einfachste Methode. Die Audiodaten werden verarbeitet und das vollständige Transkriptionsergebnis wird in einer einzigen Antwort zurückgegeben, nachdem alle Audiodaten verarbeitet wurden.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Wenn Sie Audiodateien transkribieren möchten, die länger als 60 Sekunden sind, oder Audioinhalte in Echtzeit transkribieren möchten, können Sie eine der folgenden Methoden verwenden:
- Batch-Erkennung: Ideal für die Transkription langer Audiodateien (Minuten bis Stunden), die in einem Cloud Storage-Bucket gespeichert sind. Dies ist ein asynchroner Vorgang. Weitere Informationen zur Batcherkennung finden Sie unter Batcherkennung.
- Streamingerkennung: Ideal für die Erfassung und Transkription von Audio in Echtzeit, z. B. von einem Mikrofon-Feed oder einem Livestream. Weitere Informationen zur Streamingerkennung finden Sie unter Streamingerkennung.
Nächste Schritte
- Weitere Informationen zum Transkribieren von Audiostreams
- Lange Audiodateien transkribieren
- Kurze Audiodateien transkribieren
- Best Practices-Dokumentation für maximale Leistung und Genauigkeit sowie für weitere Tipps