Auf dieser Seite wird beschrieben, wie Sie mit der Cloud Speech-to-Text API automatisch Untertitel aus Audiodateien im SRT- und WebVTT-Format generieren. In diesen Formaten können der Text und die Zeitinformationen von Audio gespeichert werden. So können Untertitel synchron mit den Medien angezeigt werden.
Das Aktivieren von Untertitelausgaben in Ihrer Anfrage an Cloud Speech-to-Text wird nur in der V2 API unterstützt. Insbesondere können Sie BatchRecognize nur zum Transkribieren langer Audiodateien verwenden. Sie können Ausgaben in einem Cloud Storage-Bucket speichern oder sie können inline zurückgegeben werden. Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Diese werden mit unterschiedlichen Dateiendungen in den angegebenen Bucket geschrieben.
Untertitel-Ausgaben in einer Anfrage aktivieren
Wenn Sie mit Cloud Speech-to-Text SRT- oder VTT-Untertitel für Ihre Audioinhalte generieren möchten, gehen Sie so vor, um die Untertitel in Ihrer Transkriptionsanfrage zu aktivieren:
- Stellen Sie eine Anfrage an die
BatchRecognize-Methode der Cloud Speech-to-Text API, wobei das Feldoutput_format_configausgefüllt ist. Die angegebenen Werte sind:srt, damit die Ausgabe dem SRT-Format entspricht. -vtt, damit die Ausgabe dem WebVTT-Format entspricht.native, das Standardausgabeformat, wenn kein Format als serialisierteBatchRecognizeResults-Anfrage angegeben wird.
- Da der Vorgang asynchron ist, fragen Sie den Vorgang ab, bis er abgeschlossen ist.
Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Sie werden mit unterschiedlichen Dateiendungen (entweder .json, .srt oder .vtt) in das angegebene Bucket geschrieben.
Wenn für die Inline-Ausgabekonfiguration mehrere Formate angegeben sind, ist jedes Format als Feld in der BatchRecognizeFileResult.inline_result-Nachricht verfügbar.
Im folgenden Code-Snippet wird gezeigt, wie die Untertitelausgabe in einer Transkriptionsanfrage an Cloud Speech-to-Text mithilfe von lokalen und Remote-Dateien aktiviert wird:
API
curl -X POST \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
--data '{
"files": [{
"uri": "gs://my-bucket/jfk_and_the_press.wav"
}],
"config": {
"features": { "enableWordTimeOffsets": true },
"autoDecodingConfig": {},
"model": "long",
"languageCodes": ["en-US"]
},
"recognitionOutputConfig": {
"gcsOutputConfig": { "uri": "gs://my-bucket" },
"output_format_config": { "srt": {} }
}
}'
Nächste Schritte
- Weitere Informationen zum Transkribieren von langen Audiodateien
- Weitere Informationen zum Auswählen des besten Transkriptionsmodells
- Audiodateien mit Chirp transkribieren
- Lesen Sie die Best Practices-Dokumentation für maximale Leistung und Genauigkeit sowie für weitere Tipps.