Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

הכנת נתוני אימון

Google Cloud כאן אפשר לקרוא איך להכין את נתוני האודיו והטקסט כדי לכוונן מודל מותאם אישית של דיבור לטקסט ב-Speech Console. איכות נתוני האימון משפיעה על רמת האפקטיביות של המודלים שאתם יוצרים. תצטרכו ליצור מערך נתונים מגוון שמכיל אודיו מייצג והקשר טקסטואלי שרלוונטיים ישירות למה שהמודל יגיב לו במהלך זמן ההסקה בסביבת הייצור, כולל רעשים ולקסיקון לא רגיל.

כדי לאמן ביעילות מודל מותאם אישית של המרת דיבור לטקסט, אתם צריכים:

נתוני אימון של לפחות 100 שעות אודיו, או אודיו בלבד או אודיו עם תמליל הטקסט התואם כנתוני אמת. הנתונים האלה חיוניים לשלב האימון הראשוני, כדי שהמודל ילמד את הניואנסים של דפוסי הדיבור והאוצר מילים. פרטים נוספים זמינים במאמר בנושא יצירת מערך נתונים של מקורות מהימנים.
מערך נתונים נפרד של לפחות 10 שעות אודיו של נתוני אימות, עם תמליל הטקסט התואם כאמת בסיסית.

לפני שמתחילים

מוודאים שנרשמתם לחשבון ב- Google Cloud , יצרתם פרויקט ב- Google Cloudוהפעלתם את Cloud Speech-to-Text API:

עוברים אל Cloud Storage.
אם עדיין אין לכם קטגוריה, יוצרים קטגוריה.

יצירת מערך נתונים

כדי ליצור מערך נתונים, צריך ליצור שתי תיקיות משנה בקטגוריה של Cloud Storage שתבחרו. פועלים לפי מוסכמות פשוטות למתן שמות:

יוצרים ספריית משנה בשם training_dataset כדי לאחסן את כל קובצי האימון.
יוצרים ספריית משנה בשם validation_dataset כדי לאחסן את כל קובצי האימון.
מעלים את קובצי האודיו והטקסט לספריות בהתאם להנחיות בנושא הערות של נתוני אמת.

הנחיות לגבי מערכי נתונים

גם לאימון וגם לאימות, הפורמטים הנתמכים של קבצים הם .wav לקובצי אודיו בקידוד LINEAR16 ו-.txt לקובצי טקסט, אם הם זמינים. מומלץ להימנע משימוש בתווים שאינם ASCII בשמות הקבצים.
קובצי אודיו שנמצאים באותה ספרייה צריכים להישלח בקובץ TXT נפרד, ששם הקובץ שלו זהה לשם קובץ ה-WAV התואם, לדוגמה, my_file_1.wav, my_file_1.txt. לכל קובץ אודיו צריך להיות רק קובץ תמלול אחד.

נתוני אימון

כל הקבצים לאימון צריכים להיות באותה ספרייה, ללא תיקיות משנה.
אופציונלי: אם יש תמלילים לקובצי האודיו, כדאי לספק אותם. לא צריך לציין חותמות זמן.
חשוב לוודא שאורך האודיו המצטבר של קובצי האודיו ארוך מ-100 שעות. אם לא, משימת האימון תיכשל.

דוגמה לאופן שבו מבנה הספריות צריך להיראות אחרי העלאת הקבצים כמערך נתונים לאימון:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

נתוני אימות

כל הקבצים לאימות מסופקים באותה ספרייה בשם validation_dataset ללא תיקיות מקוננות.
אורך כל קובץ אודיו לאימות לא יעלה על 30 שניות.
לספק תמלילים מדויקים לכל אחד מקובצי האודיו באותה תיקייה בקובץ TXT נפרד.

דוגמה למבנה הספריות אחרי העלאת הקבצים כקבוצת נתוני אימות:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

הנחיות להערות לגבי ערכי סף (ground truth)

הוראות העיצוב מפורטות בהמשך.

Numbers

מספרים קרדינליים וסדרים צריכים להיות מתומללים רק בספרות.

אודיו: "בחפיסת קלפים יש חמישים ושניים קלפים, שלוש עשרה דרגות מארבע הסדרות, יהלומים, לבבות ועלים"
טקסט של נתוני אמת: "A deck of cards has 52 cards, 13 ranks of the four suits, diamonds, hearts, and spades"

מטבע ויחידות

לתמלל אותם כמו שהם נכתבים בדרך כלל באזור התמלול. צריך לקצר את כל היחידות שמופיעות אחרי ערכים מספריים. אם ברור מההקשר שמספר או רצף מספרים מתייחסים למטבע או לזמן, צריך לעצב אותם בהתאם.

תאריך ושעה

לתמלל בפורמט הנפוץ לציון תאריכים ושעות בשפת התמלול. אם אפשר, כדאי לכתוב את השעות בפורמט hh:mm.

כתובות

תמלול עם שמות מלאים של מיקומים, כבישים ומדינות, למשל, עם קיצורים כשמציינים אותם במפורש. צריך לתמלל את הישויות והמיקומים ולהפריד ביניהם באמצעות פסיק.

שמות פרטיים וסימני הטעמה

לתמלל תוך שימוש באיות ובפיסוק הרשמיים. אם לשם פרטי יכולות להיות כמה דרכי כתיבה וההקשר לא עוזר, צריך להשתמש בדרך הכתיבה הנפוצה ביותר.

שמות של מותגים, מוצרים ומדיה

לתמלל אותם לפי הפורמט הרשמי והדרך הנפוצה ביותר שבה הם נכתבים.

מילות קריאה

צריך לתמלל צחוק או קולות אחרים שאינם דיבור באמצעות עד שלוש הברות. צריך להתעלם לחלוטין מצחוק שמופיע בתוך דיבור. דוגמה:

אודיו: "ha ha ha ha ha"
טקסט של נתוני אמת: "hahaha"

דוברים מרובים

לא מפרידים ביניהם באמצעות תגי דובר, כי בדרך כלל אין תמיכה בייחוס הדיבור לדובר.

המאמרים הבאים

כדי להשתמש במודלים מותאמים אישית של דיבור באפליקציה, אפשר להיעזר במקורות המידע הבאים: