WebVTT- und SRT-Untertitel generieren

Auf dieser Seite wird beschrieben, wie Sie mit der Cloud Speech-to-Text API automatisch Untertitel aus Audiodateien im SRT- und WebVTT-Format generieren. In diesen Formaten können der Text und die Zeitinformationen von Audio gespeichert werden. So können Untertitel synchron mit den Medien angezeigt werden.

Das Aktivieren von Untertitelausgaben in Ihrer Anfrage an Cloud Speech-to-Text wird nur in der V2 API unterstützt. Insbesondere können Sie BatchRecognize nur zum Transkribieren langer Audiodateien verwenden. Sie können Ausgaben in einem Cloud Storage-Bucket speichern oder sie können inline zurückgegeben werden. Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Diese werden mit unterschiedlichen Dateiendungen in den angegebenen Bucket geschrieben.

Untertitel-Ausgaben in einer Anfrage aktivieren

Wenn Sie mit Cloud Speech-to-Text SRT- oder VTT-Untertitel für Ihre Audioinhalte generieren möchten, gehen Sie so vor, um die Untertitel in Ihrer Transkriptionsanfrage zu aktivieren:

Stellen Sie eine Anfrage an die BatchRecognize-Methode der Cloud Speech-to-Text API, wobei das Feld output_format_config ausgefüllt ist. Die angegebenen Werte sind:
- srt, damit die Ausgabe dem SRT-Format entspricht. - vtt, damit die Ausgabe dem WebVTT-Format entspricht.
- native, das Standardausgabeformat, wenn kein Format als serialisierte BatchRecognizeResults-Anfrage angegeben wird.
Da der Vorgang asynchron ist, fragen Sie den Vorgang ab, bis er abgeschlossen ist.

Für die Cloud Storage-Ausgabekonfiguration können mehrere Formate gleichzeitig angegeben werden. Sie werden mit unterschiedlichen Dateiendungen (entweder .json, .srt oder .vtt) in das angegebene Bucket geschrieben.

Wenn für die Inline-Ausgabekonfiguration mehrere Formate angegeben sind, ist jedes Format als Feld in der BatchRecognizeFileResult.inline_result-Nachricht verfügbar.

Im folgenden Code-Snippet wird gezeigt, wie die Untertitelausgabe in einer Transkriptionsanfrage an Cloud Speech-to-Text mithilfe von lokalen und Remote-Dateien aktiviert wird:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

Nächste Schritte

Weitere Informationen zum Transkribieren von langen Audiodateien
Weitere Informationen zum Auswählen des besten Transkriptionsmodells
Audiodateien mit Chirp transkribieren
Lesen Sie die Best Practices-Dokumentation für maximale Leistung und Genauigkeit sowie für weitere Tipps.

WebVTT- und SRT-Untertitel generieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Untertitel-Ausgaben in einer Anfrage aktivieren

API

Nächste Schritte

WebVTT- und SRT-Untertitel generieren