Google Cloud כאן אפשר לקרוא איך להכין את נתוני האודיו והטקסט כדי לכוונן מודל מותאם אישית של דיבור לטקסט ב-Speech Console. איכות נתוני האימון משפיעה על רמת האפקטיביות של המודלים שאתם יוצרים. תצטרכו ליצור מערך נתונים מגוון שמכיל אודיו מייצג והקשר טקסטואלי שרלוונטיים ישירות למה שהמודל יגיב לו בזמן ההסקה בסביבת הייצור, כולל רעשים ולקסיקון לא שגרתי.
כדי לאמן ביעילות מודל מותאם אישית של המרת דיבור לטקסט, אתם צריכים:
- נתוני אימון של 100 שעות אודיו לפחות, או אודיו בלבד או אודיו עם תמליל הטקסט המתאים כנתוני אמת. הנתונים האלה חיוניים לשלב האימון הראשוני, כדי שהמודל ילמד את הניואנסים של דפוסי הדיבור והאוצר מילים. פרטים נוספים זמינים במאמר בנושא יצירת מערך נתונים של מקרי אמת.
- מערך נתונים נפרד של לפחות 10 שעות אודיו של נתוני אימות, עם תמליל הטקסט התואם כנתוני אמת.
לפני שמתחילים
מוודאים שנרשמתם לחשבון ב- Google Cloud , יצרתם פרויקט ב- Google Cloud והפעלתם את Cloud Speech-to-Text API: Google Cloud
- עוברים אל Cloud Storage.
- אם עדיין אין לכם קטגוריה, יוצרים קטגוריה.
יצירת מערך נתונים
כדי ליצור מערך נתונים, צריך ליצור שתי תיקיות משנה בקטגוריה של Cloud Storage שתבחרו. פועלים לפי מוסכמות פשוטות למתן שמות:
- יוצרים ספריית משנה בשם training_dataset כדי לאחסן בה את כל קובצי האימון.
- יוצרים ספריית משנה בשם validation_dataset כדי לאחסן את כל קובצי האימון.
- מעלים את קובצי האודיו והטקסט לספריות בהתאם להנחיות בנושא הערות של נתוני אמת.
הנחיות לגבי מערכי נתונים
- גם לאימון וגם לאימות, הפורמטים הנתמכים של קבצים הם
.wavלקובצי אודיו בקידוד LINEAR16 ו-.txtלקובצי טקסט, אם הם זמינים. מומלץ להימנע משימוש בתווים שאינם ASCII בשמות הקבצים. - צריך לספק קובץ TXT נפרד לכל קובץ אודיו שנמצא באותה תיקייה. לכל קובץ TXT צריך להיות שם זהה לזה של קובץ ה-WAV התואם, לדוגמה: my_file_1.wav, my_file_1.txt. לכל קובץ אודיו צריך להיות קובץ תמלול אחד בלבד.
נתוני אימון
- כל הקבצים לאימון צריכים להיות באותה ספרייה, ללא תיקיות משנה.
- אופציונלי: אם יש תמלילים לקובצי האודיו, כדאי לספק אותם. לא צריך לציין חותמות זמן.
- חשוב לוודא שאורך האודיו המצטבר של קובצי האודיו ארוך מ-100 שעות. אם לא, משימת האימון תיכשל.
דוגמה לאופן שבו מבנה התיקיות צריך להיראות אחרי העלאת הקבצים כמערך נתונים לאימון:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
נתוני אימות
- כל הקבצים לאימות מסופקים באותה ספרייה בשם validation_dataset ללא תיקיות מקוננות.
- אורך כל קובץ אודיו לאימות לא יעלה על 30 שניות.
- לספק תמלילים מדויקים לכל אחד מקובצי האודיו באותה תיקייה בקובץ TXT נפרד.
דוגמה לאופן שבו מבנה התיקיות צריך להיראות אחרי העלאת הקבצים כקבוצת אימות נתונים:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
הנחיות להערות לגבי ערכי סף (ground truth)
בהמשך מפורטות הוראות לעיצוב.
Numbers
מספרים מונים וסודרים צריכים להיות מתועתקים רק בספרות.
- אודיו: "בחפיסת קלפים יש חמישים ושניים קלפים, שלוש עשרה דרגות של ארבע סדרות, יהלומים, לבבות ועלים"
- טקסט של נתוני אמת: "A deck of cards has 52 cards, 13 ranks of the four suits, diamonds, hearts, and spades"
מטבע ויחידות
לתמלל אותם כמו שהם נכתבים בדרך כלל באזור התמלול. צריך לקצר את כל היחידות שמופיעות אחרי ערכים מספריים. אם ברור מההקשר שמספר או רצף מספרים מתייחסים למטבע או לזמן, צריך לעצב אותם בהתאם.
תאריך ושעה
לתמלל בפורמט הנפוץ לציון תאריכים ושעות בשפה של התמלול. אם אפשר, כדאי לכתוב את השעות בפורמט hh:mm.
כתובות
תמלול עם שמות מלאים של מיקומים, כבישים ומדינות, למשל, עם קיצורים כשמציינים אותם במפורש. צריך לתמלל את הישויות והמיקומים ולהפריד ביניהם באמצעות פסיק.
שמות פרטיים וסימני הטעמה
לתמלל תוך שימוש באיות ובפיסוק הרשמיים. אם לשם פרטי יכולות להיות כמה דרכי כתיבה, וההקשר לא עוזר, צריך להשתמש בדרך הכתיבה הנפוצה ביותר.
שמות של מותגים, מוצרים ומדיה
תמלול שלהם לפי הפורמט הרשמי והדרך הנפוצה ביותר שבה הם נכתבים.
מילות קריאה
צחוק או קולות אחרים שאינם דיבור צריכים להיות מתומללים באמצעות עד שלוש הברות. צריך להתעלם לחלוטין מצחוק שמופיע בתוך דיבור. דוגמה:
- אודיו: "ha ha ha ha ha"
- טקסט של נתוני אמת: "hahaha"
דוברים מרובים
אל תפרידו ביניהם באמצעות תגי דובר, כי בדרך כלל אין תמיכה בסימון דוברים.
המאמרים הבאים
כדי להשתמש במודלים מותאמים אישית של דיבור באפליקציה, אפשר להיעזר במקורות המידע הבאים:
- אימון וניהול של מודלים מותאמים אישית
- פריסה וניהול של נקודות קצה של מודלים
- שימוש במודלים מותאמים אישית
- הערכת המודלים המותאמים אישית