מדידה ושיפור של הדיוק

במדריך למתחילים הזה נסביר איך למדוד את הדיוק שלGoogle Cloud Cloud Speech-to-Text בנתוני האודיו שלכם ולשפר אותו. כדאי גם לבדוק את המודלים והאפשרויות השונים שזמינים ב-API כדי לשפר את הדיוק של התמלול. כאן מוסבר איך להשתמש בממשק המשתמש של Cloud Speech-to-Text במסוף Google Cloud ובקובץ אמת כדי למדוד את רמת הדיוק ולקבל תובנות לגבי מערכת Cloud Speech-to-Text.

מערכות למידת מכונה (ML) חשופות מטבען לטעויות, ומערכות לזיהוי דיבור אוטומטי (ASR), שנקראות גם מערכות Cloud Speech-to-Text, לא יוצאות מן הכלל. מדידה מדויקת של הדיוק קשורה באופן הדוק לתרחישי שימוש ספציפיים ולמערכות שנבדקות, כי הבדלים באיכות הקלטת האודיו ובתנאים האקוסטיים יכולים להשפיע באופן משמעותי על הדיוק. לכן, לא ניתן להציג ציון דיוק יחיד לכל הלקוחות ולכל תרחישי השימוש. כדי להבטיח ביצועים אמינים של מערכות ASR במערכות קריטיות שפונות לייצור. חשוב גם להבין את הביצועים של Cloud Speech-to-Text בהקשר הרחב יותר של המערכת שלכם.

לצורך המדריך למתחילים הזה,נשתמש בשיטה המקובלת בתחום להשוואה, שיעור שגיאות במילים (WER), שלעתים קרובות מקוצרת ל-WER. מידע נוסף על אופן החישוב והפרשנות של WER זמין במאמר מדידה ושיפור של דיוק הדיבור.

תחילת העבודה עם Google Cloud המסוף

ודאו שנרשמתם לחשבון ויצרתם פרויקט. Google Cloud

  1. נכנסים אל Speech במסוף Google Cloud ועוברים אל Cloud Speech-to-Text UI.
  2. כדי ליצור את ה<b>תמליל</b> הראשון באמצעות Cloud Speech-to-Text, צריך לפעול לפי ה<b>מדריך למתחילים</b>. לשם כך, משתמשים ב<b>קובץ אודיו</b> שמייצג מבחינה אקוסטית את <b>תרחיש השימוש</b> ואת האופן שבו אתם מתכננים להשתמש במערכת ה-ASR.

חישוב הדיוק של התמלול

  1. אחרי שתסיימו לתמלל את קובץ האודיו, תוכלו להשתמש בקטע דיוק התמלול. הקטע הזה יישאר ריק עד שרמת הדיוק של התמליל תחושב.
  2. כדי להתחיל לחשב את רמת הדיוק, לוחצים על הלחצן Upload ground truth (העלאת נתוני אמת) בחלק העליון של הקטע.
דף הפרטים של התמלול ב-Cloud Speech-to-Text, עם הדגשה של הקטע &#39;דיוק התמלול&#39; והלחצן &#39;העלאת נתוני אמת&#39;.
דף הפרטים של התמלול ב-Cloud Speech-to-Text, עם הדגשה של הקטע 'דיוק התמלול' והלחצן 'העלאת נתוני אמת'.

ציון ערכי סף (ground truth)

  1. כדי לחשב את דיוק התמלול, צריך לספק קובץ של נתוני אמת. זהו קובץ TXT או CSV, בדרך כלל קובץ תמלול שנוצר על ידי אדם, שמכיל את התמלולים הנכונים או הצפויים לצורך השוואה.
  2. בדוגמה הבאה, נשתמש ב-gs://cloud-samples-data/speech/brooklyn_bridge.wav. קובץ נתוני האמת מכיל: How old is the Brooklyn Bridge. אם אין לכם קובץ של נתוני אמת, מומלץ להוריד את התמליל בפורמט טקסט. עורכים את קובץ התמליל לפי הצורך. מעלים את קובץ התמלול כקובץ האמת הבסיסית.
  3. באמצעות העלאה או קובץ קיים ב-Cloud Storage, מציינים את קובץ האמת הבסיסית ולוחצים על שמירה.
דף ליצירת תמליל של Cloud Speech-to-Text, עם אפשרויות לבחירה או להעלאה של קובץ אמת.
דף ליצירת תמלול של Cloud Speech-to-Text, עם אפשרויות לבחירה או להעלאה של קובץ אמת.

אישור של נתוני האמת

  1. אחרי שלוחצים על שמירה, מוצגת בקשה לאשר שקובץ האמת הבסיסית שצוין הוא נכון. חשוב לוודא שקובץ האמת הבסיסית מייצג בצורה מדויקת את התמלילים הנכונים, כי הוא משפיע ישירות על מדדי הדיוק.
  2. לוחצים על אישור כדי להמשיך.
דף התמלול של Cloud Speech-to-Text, שבו מוצג התוכן של קובץ האמת הבסיסית שהועלה.
דף התמלול של Cloud Speech-to-Text, שבו מוצג התוכן של קובץ האמת הבסיסית שהועלה.

בדיקת תוצאות ההערכה

  1. תהליך ההערכה עשוי להימשך זמן מה, בהתאם לגודל נתוני הקלט, והתוצאות מוצגות בסיום התהליך.
  2. אחרי שההערכה מסתיימת, מוצגים החלקים הבאים:
    • טבלת דיוק התמלול, מדדי הדיוק וקישור לקובץ האמת הבסיסית ששימש בתהליך.
    • Transcription עם מתג להשוואה לקובץ האמת הבסיסית יחד עם פירוט של מדדי הדיוק והדגשים.
  3. כדאי לעיין בתוצאות הדיוק ולפרש אותן כדי להבין את הביצועים של מנגנון הזיהוי של Cloud Speech-to-Text שמשמש לזיהוי תחומים לשיפור, כי התוצאות משתנות בהתאם לקלט ולתמלול שנעשה בהם שימוש. בדוגמאות הבאות אפשר לראות מקרים מייצגים של תוצאות הדיוק, שמספקות תובנות חשובות לאופטימיזציה של מערכת Cloud Speech-to-Text.
    • דוגמה ל-WER של 0%:
      דף הדיוק של התמלול ב-Cloud Speech-to-Text, שבו מוצגות תוצאות ההערכה המחושבות של התמליל הנתון עם שיעור שגיאות מילים של 0%.
      דף של דיוק התמלול של Cloud Speech-to-Text, שבו מוצגות תוצאות ההערכה המחושבות של התמליל הנתון עם שיעור שגיאות מילים של 0%.
    • דוגמה ל-WER של 40%:
      דף דיוק התמלול של Cloud Speech-to-Text, המציג תוצאות הערכה מחושבות עבור התמליל הנתון, עם שיעור שגיאות במילים של 40%.
      דף דיוק התמלול של Cloud Speech-to-Text, שבו מוצגות תוצאות ההערכה המחושבות לתמליל הנתון עם שיעור שגיאות במילים של 40%.

אופציונלי: עדכון נתוני האמת

כדי לבדוק נתונים שונים של אמת בסיסית בהשוואה לתמלול הקיים, אפשר לצרף קובץ אחר ואז לחזור על שלבים שלוש וארבע עם קובץ מעודכן של אמת בסיסית.

נסו בעצמכם

אנחנו ממליצים למשתמשים חדשים ב-Google Cloud ליצור חשבון כדי שיוכלו להעריך את הביצועים של Cloud STT בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300 $להרצה, לבדיקה ולפריסה של עומסי העבודה.

להתנסות ב-Cloud STT בחינם