בדף הזה מוסבר איך להשתמש ב-Cloud Speech-to-Text API כדי ליצור באופן אוטומטי כתוביות מקובצי אודיו בפורמטים SRT ו-WebVTT. בפורמטים האלה אפשר לאחסן את הטקסט ואת פרטי התזמון של האודיו, וכך להציג כתוביות או כתוביות חבויות בסנכרון עם המדיה.
הפעלת פלט של כתוביות בבקשה ל-Cloud Speech-to-Text נתמכת רק בגרסה השנייה של ה-API. במיוחד, אפשר להשתמש ב-BatchRecognize רק כדי לתמלל קובצי אודיו ארוכים. אפשר לשמור את התוצאות בקטגוריה של Cloud Storage, או להחזיר אותן בשורה. אפשר לציין כמה פורמטים בו-זמנית בהגדרת הפלט של Cloud Storage, שנכתב לקטגוריה שצוינה עם סיומות קבצים שונות.
הפעלת פלט של כתוביות בבקשה
כדי ליצור פלט של כתוביות בפורמט SRT או VTT לאודיו באמצעות Cloud Speech-to-Text, צריך לבצע את השלבים הבאים כדי להפעיל פלט של כתוביות בבקשת התמלול:
- שולחים בקשה לשיטה
BatchRecognizeשל Cloud Speech-to-Text API עם השדהoutput_format_configמאוכלס. הערכים שצוינו הם: - הפעולה היא אסינכרונית, ולכן צריך לבדוק את הבקשה עד שהיא תושלם.
אפשר לציין כמה פורמטים בו-זמנית בהגדרת הפלט של Cloud Storage. הם נכתבים לקטגוריה שצוינה עם סיומות קובץ שונות (.json, .srt או .vtt).
אם מציינים כמה פורמטים בהגדרת הפלט של המיקום בתוך הטקסט, כל פורמט יהיה זמין כשדה בהודעה BatchRecognizeFileResult.inline_result.
בקטע הקוד הבא אפשר לראות איך להפעיל פלט של כתוביות בבקשת תמלול ל-Cloud Speech-to-Text באמצעות קבצים מקומיים וקבצים מרוחקים:
API
curl -X POST \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
https://speech.googleapis.com/v2/projects/my-project/locations/global/recognizers/_:batchRecognize \
--data '{
"files": [{
"uri": "gs://my-bucket/jfk_and_the_press.wav"
}],
"config": {
"features": { "enableWordTimeOffsets": true },
"autoDecodingConfig": {},
"model": "long",
"languageCodes": ["en-US"]
},
"recognitionOutputConfig": {
"gcsOutputConfig": { "uri": "gs://my-bucket" },
"output_format_config": { "srt": {} }
}
}'
המאמרים הבאים
- איך מתמללים קובצי אודיו ארוכים
- איך בוחרים את מודל התמלול הטוב ביותר
- מתמללים קובצי אודיו באמצעות Chirp.
- למידע על שיפור הביצועים והדיוק וטיפים נוספים, אפשר לעיין במסמכי התיעוד בנושא שיטות מומלצות.