Membuat teks WebVTT dan SRT

Halaman ini menjelaskan cara menggunakan Cloud Speech-to-Text API untuk otomatis membuat teks dari file audio, dalam format SRT dan WebVTT. Format ini dapat menyimpan informasi teks dan pengaturan waktu audio, sehingga memungkinkan untuk menampilkan subtitel atau teks yang disinkronkan dengan media untuk pemberian subtitel dan teks tertutup.

Pengaktifan output teks dalam permintaan Anda ke Cloud Speech-to-Text hanya didukung di API V2. Secara khusus, Anda hanya dapat menggunakan BatchRecognize untuk mentranskripsikan file audio panjang. Anda dapat menyimpan output di bucket Cloud Storage, atau output dapat ditampilkan secara inline. Beberapa format dapat ditentukan secara bersamaan untuk konfigurasi output Cloud Storage, yang ditulis ke bucket yang ditentukan dengan ekstensi file yang berbeda.

Mengaktifkan output teks dalam permintaan

Untuk membuat output teks SRT atau VTT untuk audio Anda menggunakan Cloud Speech-to-Text, ikuti langkah-langkah berikutnya untuk mengaktifkan output teks dalam permintaan transkripsi Anda:

Buat permintaan ke metode BatchRecognize Cloud Speech-to-Text API dengan kolom output_format_config diisi. Nilai yang ditentukan adalah:
- srt, agar output mengikuti format SRT. - vtt, agar output mengikuti format WebVTT.
- native, yang merupakan format output default jika tidak ada format yang ditentukan sebagai permintaan BatchRecognizeResults berseri.
Karena operasi bersifat asinkron, lakukan polling pada permintaan hingga selesai.

Beberapa format dapat ditentukan secara bersamaan untuk konfigurasi output Cloud Storage. Format tersebut ditulis ke bucket yang ditentukan dengan ekstensi file yang berbeda (.json, .srt, atau .vtt).

Jika beberapa format ditentukan untuk konfigurasi output inline, setiap format akan tersedia sebagai kolom dalam pesan BatchRecognizeFileResult.inline_result.

Cuplikan kode berikut menunjukkan cara mengaktifkan output teks dalam permintaan transkripsi ke Cloud Speech-to-Text menggunakan file lokal dan jarak jauh:

API

  curl -X POST \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
    https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
    --data '{
      "files": [{
        "uri": "gs://my-bucket/jfk_and_the_press.wav"
      }],
      "config": {
        "features": { "enableWordTimeOffsets": true },
        "autoDecodingConfig": {},
        "model": "long",
        "languageCodes": ["en-US"]
      },
      "recognitionOutputConfig": {
        "gcsOutputConfig": { "uri": "gs://my-bucket" },
        "output_format_config": { "srt": {} }
      }
    }'

Langkah berikutnya

Pelajari cara mentranskripsikan file audio panjang.
Pelajari cara memilih model transkripsi terbaik.
Mentranskripsikan file audio menggunakan Chirp.
Untuk performa terbaik, akurasi, dan tips lainnya, lihat dokumentasi praktik terbaik.

Membuat teks WebVTT dan SRT Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Mengaktifkan output teks dalam permintaan

API

Langkah berikutnya

Membuat teks WebVTT dan SRT