סקירה כללית של מודלים מותאמים אישית של דיבור

מודלים מותאמים אישית של המרת דיבור לטקסט עוזרים לכם לכוונן את המודלים של זיהוי הדיבור בהתאם לצרכים הספציפיים שלכם. השירות הזה נועד לשפר את הדיוק והרלוונטיות של שירות זיהוי הדיבור בסביבות מגוונות ובתרחישי שימוש שונים, באמצעות נתוני אודיו וטקסט ספציפיים לדומיין שלכם.

מודלים מותאמים אישית של תמלול זמינים גם במסוף Google Cloud וגם ב-API שלנו, ומאפשרים לאמן, להעריך ולפרוס מודל ייעודי של תמלול בסביבה משולבת ללא קוד. לצורך אימון, אפשר לספק רק נתוני אודיו שמייצגים את תנאי האודיו, בלי תמלילים להשוואה כקבוצת נתונים לאימון. עם זאת, צריך לספק נתוני אודיו ותמלילים להשוואה כחלק ממערך ההערכה.

כדי ליצור מודל Cloud Speech-to-Text בהתאמה אישית ולהשתמש בו, צריך לבצע את השלבים הבאים:

מכינים ומעלים נתוני אימון לקטגוריה של Cloud Storage.
אימון מודל מותאם אישית חדש.
פריסה וניהול של מודל בהתאמה אישית באמצעות נקודות קצה.
משתמשים במודל המותאם אישית באפליקציה ומעריכים את הביצועים שלו.

איך זה עובד

אתם יכולים להשתמש במודלים מותאמים אישית של המרת דיבור לטקסט כדי להוסיף יכולות למודל תמלול בסיסי ולשפר את זיהוי התמלול. תנאי אודיו מסוימים, כולל צפירות, מוזיקה ורעשי רקע חזקים מדי, עלולים להוות בעיות אקוסטיות. גם שמות מוצרים יכולים לכלול מבטא מסוים או אוצר מילים לא שגרתי.

כל מודל מותאם אישית של תמלול דיבור לטקסט משתמש בארכיטקטורה מבוססת-Conformer שאומנה מראש כמודל בסיס שאומן באמצעות נתונים קנייניים של שפה מדוברת נפוצה. במהלך תהליך האימון, המודל הבסיסי עובר כוונון עדין על ידי התאמה של אחוז משמעותי מהמשקלים המקוריים, כדי לשפר את הזיהוי של אוצר מילים ספציפי לתחום ותנאי אודיו ספציפיים לאפליקציה שלכם.

כדי לאמן ביעילות מודל מותאם אישית של המרת דיבור לטקסט, אתם צריכים לספק:

נתוני אימון של 100 שעות אודיו לפחות, או אודיו בלבד או אודיו עם תמליל הטקסט המתאים כנתוני אמת. הנתונים האלה חיוניים לשלב האימון הראשוני, כדי שהמודל ילמד באופן מקיף את הניואנסים של דפוסי הדיבור והאוצר מילים. פרטים נוספים מופיעים במאמר יצירת מערך נתונים של מקרי אמת.
- מערך נתונים נפרד של לפחות 10 שעות אודיו של נתוני אימות, עם תמליל הטקסט המתאים כנתוני אמת. בהוראות להכנת נתונים אפשר לקרוא מידע נוסף על הפורמט הצפוי ועל המוסכמות של נתוני האמת שצריך לפעול לפיהן.

אחרי אימון מוצלח, אפשר לפרוס מודל מותאם אישית של Speech-to-Text בנקודת קצה בלחיצה אחת, ולהשתמש בו ישירות דרך Cloud Speech-to-Text V2 API להסקת מסקנות ולבדיקת ביצועים.

מודלים, שפות ואזורים נתמכים

מודלים מותאמים אישית של תמלול תומכים בשילובים הבאים של מודלים, שפות ולוקאלים לאימון:

שפה	BCP-47	מודל בסיס
גרמנית (גרמניה)	de-DE	`latest_long`
אנגלית (אוסטרליה)	en-AU	`latest_long`
אנגלית (בריטניה)	en-GB	`latest_long`
אנגלית (הודו)	en-IN	`latest_long`
אנגלית (ארצות הברית)	en-US	`latest_long`
ספרדית (ארצות הברית)	es-US	`latest_long`
ספרדית (ספרד)	es-ES	`latest_long`
צרפתית (קנדה)	fr-CA	`latest_long`
צרפתית (צרפת)	fr-FR	`latest_long`
הינדית (הודו)	hi-IN	`latest_long`
איטלקית (איטליה)	it-IT	`latest_long`
יפנית (יפן)	ja-JP	`latest_long`
קוריאנית (דרום קוריאה)	ko-KR	`latest_long`
הולנדית (הולנד)	nl-NL	`latest_long`
פורטוגזית (ברזיל)	pt-BR	`latest_long`
פורטוגזית (פורטוגל)	pt-PT	`latest_long`

בנוסף, כדי לעמוד בדרישות שלכם בנוגע למיקום הנתונים, אנחנו מציעים הדרכה ופריסת חומרה באזורים שונים. מכשירים ייעודיים נתמכים בשילובים הבאים של דגמים ואזורים:

מודל בסיס	Google Cloud אזור	משימות נתמכות
`latest_long`	`us-east1`	הדרכה ופריסה
`latest_long`	`europe-west4`	הדרכה ופריסה

מכסה

באימון מודל מותאם אישית של תמלול, לכל פרויקט צריכה להיות מכסת ברירת מחדל מספיקה כדי להריץ כמה משימות אימון בו-זמנית, והיא מיועדת לענות על הצרכים של רוב הפרויקטים בלי לבצע התאמות נוספות. Google Cloudעם זאת, אם אתם צריכים להריץ מספר גדול יותר של משימות אימון בו-זמניות או שאתם זקוקים למשאבי מחשוב או לסימון נרחב יותר, אתם יכולים לבקש מכסה נוספת.

במודל מותאם אישית של Speech-to-Text שמופעל בפריסת נקודת קצה, לכל נקודת קצה יש מגבלה תיאורטית של 20 שאילתות לשנייה (QPS). אם נדרש תפוקה גבוהה יותר, צריך לבקש מכסת הגשה נוספת.

תמחור

יצירה ושימוש במודל מותאם אישית של תמלול כרוכים בעלויות מסוימות, שמבוססות בעיקר על המשאבים שנעשה בהם שימוש במהלך האימון והפריסה של המודל. באופן ספציפי, מודל מותאם אישית של תמלול יגרום לעלויות הבאות במחזור חיים טיפוסי של מודל:

אימון: תשלמו על מספר שעות אימון המודל. הזמן הזה הוא יחסי לכמות השעות של האודיו בקבוצת הנתונים לאימון. בדרך כלל, האימון נמשך עשירית ממספר השעות של האודיו במערך הנתונים.
פריסה: תשלמו על כל שעה שבה מודל נפרס בנקודת קצה.
הסקת מסקנות: תשלמו על מספר השניות של אודיו בסטרימינג לתמלול, בהתאם לחיוב הכללי של Cloud Speech-to-Text.

הבנה של העלויות האלה חיונית לתקצוב יעיל ולהקצאת משאבים. מידע נוסף זמין בקטע בנושא מודלים מותאמים אישית של תמלול לטקסט במאמר תמחור של Cloud Speech-to-Text.

המאמרים הבאים

כדי להשתמש במודלים מותאמים אישית של דיבור באפליקציה, אפשר להיעזר במקורות המידע הבאים: