Auf dieser Seite wird beschrieben, wie Sie ein bestimmtes Modell für maschinelles Lernen für Audiotranskriptionsanfragen an Cloud Speech-to-Text verwenden. Einige der in dieser Anleitung verlinkten Ressourcen stehen ggf. nur auf Englisch zur Verfügung.
Das richtige Transkriptionsmodell auswählen
Cloud Speech-to-Text erkennt Wörter in einem Audioclip durch den Vergleich der Eingabe mit einem von vielen Modellen für maschinelles Lernen. Jedes Modell wurde durch die Analyse von Millionen Beispielen trainiert – in diesem Fall durch sehr viele Audioaufnahmen von sprechenden Personen.
Cloud STT verfügt über spezielle Modelle, die anhand von Audiodaten aus bestimmten Quellen trainiert wurden. Diese Modelle liefern bessere Ergebnisse, wenn sie auf ähnliche Audiodaten wie die Daten angewendet werden, mit denen sie trainiert wurden.
In der folgenden Tabelle sind die Transkriptionsmodelle aufgeführt, die für die Cloud Speech-to-Text API V2 verfügbar sind.
| Modellname | Beschreibung |
|---|---|
chirp_3 |
Nutzen Sie die neueste Generation der mehrsprachigen generativen Modelle von Google für die automatische Spracherkennung (ASR), die auf Grundlage von Feedback und Erfahrungen auf die Bedürfnisse Ihrer Nutzer zugeschnitten sind. Chirp 3 bietet eine höhere Accuracy und Geschwindigkeit als frühere Chirp-Modelle und ermöglicht die Sprecherzuordnung und automatische Spracherkennung. |
chirp_2 |
Verwenden Sie das Universal Speech Model (USM), das auf unserer LLM-Technologie (Large Language Model) basiert und Transkriptionen und Übersetzungen für verschiedene sprachliche Inhalte und mehrsprachige Funktionen bietet. |
telephony |
Verwenden Sie dieses Modell für Audiodaten, die aus einem Telefonanruf stammen und in der Regel mit einer Abtastrate von 8 kHz aufgezeichnet wurden. Ideal für Kundenservice, Telefonkonferenzen und automatisierte Kioskanwendungen. |
Modell für die Audiotranskription wählen
Für die Transkription kurzer Audioclips (unter 60 Sekunden) ist die synchrone Erkennung die einfachste Methode. Die Audiodaten werden verarbeitet und das vollständige Transkriptionsergebnis wird in einer einzigen Antwort zurückgegeben, nachdem alle Audiodaten verarbeitet wurden.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Wenn Sie Audiodateien transkribieren möchten, die länger als 60 Sekunden sind, oder Audioinhalte in Echtzeit transkribieren möchten, können Sie eine der folgenden Methoden verwenden:
- Batcherkennung: Ideal zum Transkribieren langer Audiodateien (Minuten bis Stunden), die in einem Cloud Storage-Bucket gespeichert sind. Dies ist ein asynchroner Vorgang. Weitere Informationen zur Batcherkennung finden Sie unter Batcherkennung.
- Streamingerkennung: Ideal für die Erfassung und Transkription von Audio in Echtzeit, z. B. von einem Mikrofonfeed oder einem Livestream. Weitere Informationen zur Streamingerkennung finden Sie unter Streamingerkennung.
Nächste Schritte
- Erfahren Sie mehr über das Transkribieren von Audiostreams
- Erfahren Sie mehr über das Transkribieren von langen Audiodateien.
- Erfahren Sie mehr über das Transkribieren kurzer Audiodateien
- Best Practices-Dokumentation mit Tipps zu Leistung, Accuracy und anderen Themen