במדריך למתחילים הזה נסביר איך למדוד את הדיוק שלGoogle Cloud Cloud Speech-to-Text בנתוני האודיו שלכם ולשפר אותו. כדאי גם לבדוק את המודלים והאפשרויות השונים שזמינים ב-API כדי לשפר את הדיוק של התמלול. כאן מוסבר איך להשתמש בממשק המשתמש של Cloud Speech-to-Text במסוף Google Cloud ובקובץ אמת כדי למדוד את רמת הדיוק ולקבל תובנות לגבי מערכת Cloud Speech-to-Text.
מערכות למידת מכונה (ML) חשופות מטבען לטעויות, ומערכות לזיהוי דיבור אוטומטי (ASR), שנקראות גם מערכות Cloud Speech-to-Text, לא יוצאות מן הכלל. מדידה מדויקת של הדיוק קשורה באופן הדוק לתרחישי שימוש ספציפיים ולמערכות שנבדקות, כי הבדלים באיכות הקלטת האודיו ובתנאים האקוסטיים יכולים להשפיע באופן משמעותי על הדיוק. לכן, לא ניתן להציג ציון דיוק יחיד לכל הלקוחות ולכל תרחישי השימוש. כדי להבטיח ביצועים אמינים של מערכות ASR במערכות קריטיות שפונות לייצור. חשוב גם להבין את הביצועים של Cloud Speech-to-Text בהקשר הרחב יותר של המערכת שלכם.
לצורך המדריך למתחילים הזה,נשתמש בשיטה המקובלת בתחום להשוואה, שיעור שגיאות במילים (WER), שלעתים קרובות מקוצרת ל-WER. מידע נוסף על אופן החישוב והפרשנות של WER זמין במאמר מדידה ושיפור של דיוק הדיבור.
תחילת העבודה עם Google Cloud המסוף
ודאו שנרשמתם לחשבון ויצרתם פרויקט. Google Cloud
- נכנסים אל Speech במסוף Google Cloud ועוברים אל Cloud Speech-to-Text UI.
- כדי ליצור את ה<b>תמליל</b> הראשון באמצעות Cloud Speech-to-Text, צריך לפעול לפי ה<b>מדריך למתחילים</b>. לשם כך, משתמשים ב<b>קובץ אודיו</b> שמייצג מבחינה אקוסטית את <b>תרחיש השימוש</b> ואת האופן שבו אתם מתכננים להשתמש במערכת ה-ASR.
חישוב הדיוק של התמלול
- אחרי שתסיימו לתמלל את קובץ האודיו, תוכלו להשתמש בקטע דיוק התמלול. הקטע הזה יישאר ריק עד שרמת הדיוק של התמליל תחושב.
- כדי להתחיל לחשב את רמת הדיוק, לוחצים על הלחצן Upload ground truth (העלאת נתוני אמת) בחלק העליון של הקטע.
ציון ערכי סף (ground truth)
- כדי לחשב את דיוק התמלול, צריך לספק קובץ של נתוני אמת. זהו קובץ TXT או CSV, בדרך כלל קובץ תמלול שנוצר על ידי אדם, שמכיל את התמלולים הנכונים או הצפויים לצורך השוואה.
- בדוגמה הבאה, נשתמש ב-
gs://cloud-samples-data/speech/brooklyn_bridge.wav. קובץ נתוני האמת מכיל:How old is the Brooklyn Bridge. אם אין לכם קובץ של נתוני אמת, מומלץ להוריד את התמליל בפורמט טקסט. עורכים את קובץ התמליל לפי הצורך. מעלים את קובץ התמלול כקובץ האמת הבסיסית. - באמצעות העלאה או קובץ קיים ב-Cloud Storage, מציינים את קובץ האמת הבסיסית ולוחצים על שמירה.
אישור של נתוני האמת
- אחרי שלוחצים על שמירה, מוצגת בקשה לאשר שקובץ האמת הבסיסית שצוין הוא נכון. חשוב לוודא שקובץ האמת הבסיסית מייצג בצורה מדויקת את התמלילים הנכונים, כי הוא משפיע ישירות על מדדי הדיוק.
- לוחצים על אישור כדי להמשיך.
בדיקת תוצאות ההערכה
- תהליך ההערכה עשוי להימשך זמן מה, בהתאם לגודל נתוני הקלט, והתוצאות מוצגות בסיום התהליך.
- אחרי שההערכה מסתיימת, מוצגים החלקים הבאים:
- טבלת דיוק התמלול, מדדי הדיוק וקישור לקובץ האמת הבסיסית ששימש בתהליך.
-
Transcriptionעם מתג להשוואה לקובץ האמת הבסיסית יחד עם פירוט של מדדי הדיוק והדגשים.
- כדאי לעיין בתוצאות הדיוק ולפרש אותן כדי להבין את הביצועים של מנגנון הזיהוי של Cloud Speech-to-Text שמשמש לזיהוי תחומים לשיפור, כי התוצאות משתנות בהתאם לקלט ולתמלול שנעשה בהם שימוש. בדוגמאות הבאות אפשר לראות מקרים מייצגים של תוצאות הדיוק, שמספקות תובנות חשובות לאופטימיזציה של מערכת Cloud Speech-to-Text.
- דוגמה ל-WER של 0%:
דף של דיוק התמלול של Cloud Speech-to-Text, שבו מוצגות תוצאות ההערכה המחושבות של התמליל הנתון עם שיעור שגיאות מילים של 0%. - דוגמה ל-WER של 40%:
דף דיוק התמלול של Cloud Speech-to-Text, שבו מוצגות תוצאות ההערכה המחושבות לתמליל הנתון עם שיעור שגיאות במילים של 40%.
- דוגמה ל-WER של 0%:
אופציונלי: עדכון נתוני האמת
כדי לבדוק נתונים שונים של אמת בסיסית בהשוואה לתמלול הקיים, אפשר לצרף קובץ אחר ואז לחזור על שלבים שלוש וארבע עם קובץ מעודכן של אמת בסיסית.
נסו בעצמכם
אנחנו ממליצים למשתמשים חדשים ב-Google Cloud ליצור חשבון כדי שיוכלו להעריך את הביצועים של Cloud STT בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300 $להרצה, לבדיקה ולפריסה של עומסי העבודה.
להתנסות ב-Cloud STT בחינם