מידע בסיסי על Cloud Text-to-Speech

Cloud Text-to-Speech הוא API שמאפשר ליצור דיבור סינתטי שנשמע טבעי כמו דיבור אנושי, כקובץ אודיו שאפשר להפעיל. אתם יכולים להשתמש בקובצי נתוני האודיו שאתם יוצרים באמצעות Cloud Text-to-Speech כדי להפעיל את האפליקציות שלכם או כדי לשפר מדיה כמו סרטונים או הקלטות אודיו (בהתאם לתנאים ולהגבלות של Google Cloud Platform, כולל עמידה בכל החוקים הרלוונטיים).

‫Cloud TTS ממיר קלט של טקסט או של Speech Synthesis Markup Language‏ (SSML) לנתוני אודיו כמו MP3 או LINEAR16 (הקידוד שמשמש בקובצי WAV).

המסמך הזה הוא מדריך להבנת השימוש ב-Cloud Text-to-Speech. דוגמאות קוד מעשיות זמינות בקטע הדוגמאות. בדף תחילת העבודה מוסבר איך להגדיר את פרויקט Google Cloud כדי להשתמש ב-Cloud Text-to-Speech API.

דוגמה בסיסית

‫Cloud TTS הוא פתרון אידיאלי לכל אפליקציה שמפעילה אודיו של דיבור אנושי למשתמשים. בעזרת Cloud TTS, אפשר להמיר מחרוזות, מילים ומשפטים שרירותיים לצליל של אדם שאומר את אותם הדברים.

נניח שיש לכם אפליקציה של עוזר קולי שמספקת למשתמשים משוב בשפה טבעית כקבצי אודיו שאפשר להפעיל. אתם יכולים להשתמש ב-Cloud TTS כדי שהאפליקציה שלכם תבצע פעולה מסוימת ואז תספק למשתמש משוב בצורת דיבור אנושי. יכול להיות שתרצו שהאפליקציה תדווח שהיא הוסיפה אירוע ליומן של המשתמש בהצלחה. האפליקציה תיצור מחרוזת תגובה כדי לדווח למשתמש על ההצלחה, למשל "הוספתי את האירוע ליומן שלך".

בעזרת Cloud TTS, אפשר להמיר את מחרוזת התגובה הזו לדיבור אנושי אמיתי כדי להשמיע אותה למשתמש, כמו בדוגמה הבאה:


דוגמה 1. קובץ אודיו שנוצר מ-Cloud TTS

כדי ליצור קובץ אודיו כמו בדוגמה 1, שולחים בקשה ל-Cloud TTS כמו בקטע הקוד הבא.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: PROJECT_ID" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

סינתזת דיבור

התהליך של תרגום קלט טקסט לנתוני אודיו נקרא סינתזה, והפלט של הסינתזה נקרא דיבור סינתטי. ‫Cloud TTS מקבל שני סוגי קלט: טקסט גולמי או נתונים בפורמט SSML (כפי שמוסבר בהמשך). כדי ליצור קובץ אודיו חדש, מתקשרים לנקודת הקצה synthesize של ה-API.

תהליך סינתזת הדיבור יוצר נתוני אודיו גולמיים כמחרוזת בקידוד Base64. כדי שאפליקציה תוכל להפעיל אותו, צריך לפענח את המחרוזת המקודדת ב-base64 לקובץ אודיו. לרוב הפלטפורמות ומערכות ההפעלה יש כלים לפענוח טקסט בפורמט base64 לקובצי מדיה שאפשר להפעיל.

כדי לקבל מידע נוסף על סינתזה, אפשר לעיין במדריכים לתחילת העבודה או בדף יצירת קובצי אודיו של קולות.

קולות

‫Cloud TTS יוצר נתוני אודיו גולמיים של דיבור אנושי טבעי. כלומר, הוא יוצר אודיו שנשמע כמו אדם שמדבר. כששולחים בקשת סינתזה ל-Cloud TTS, צריך לציין קול שבו המילים יושמעו.

ב-Cloud TTS יש מבחר גדול של קולות מותאמים אישית שאתם יכולים להשתמש בהם. הקולות שונים לפי שפה, מגדר ומבטא (בחלק מהשפות). לדוגמה, אפשר ליצור אודיו שמחקה את הצליל של דוברת אנגלית עם מבטא בריטי, כמו בדוגמה הקודמת. אפשר גם להמיר את אותו הטקסט לקול אחר (לדוגמה, דובר אנגלית זכר עם מבטא אוסטרלי).


דוגמה 2. קובץ אודיו שנוצר עם רמקול en-AU

רשימה מלאה של הקולות הזמינים מופיעה במאמר בנושא קולות נתמכים.

הגדרות אחרות של פלט אודיו

בנוסף לקול, אפשר גם להגדיר היבטים אחרים של פלט נתוני האודיו שנוצר על ידי סינתזת דיבור. ‫Cloud TTS תומך בהגדרת קצב הדיבור, גובה הצליל, עוצמת הקול וקצב הדגימה בהרץ.

מידע נוסף זמין במאמר בנושא AudioConfig.

תמיכה בשפת סימון לסינתזת דיבור (SSML)

כדי לשפר את הדיבור המסונתז שנוצר על ידי Cloud TTS, אפשר לסמן את הטקסט באמצעות שפת סימון לסינתזת דיבור (SSML). ‫SSML מאפשר להוסיף השהיות, הגייה של ראשי תיבות או פרטים נוספים אחרים לנתוני האודיו שנוצרו על ידי Cloud TTS. ‫Cloud TTS תומך בקבוצת משנה של רכיבי SSML הזמינים.

לדוגמה, כדי לוודא שהדיבור הסינתטי מבטא נכון מספרים סידוריים, אפשר לספק ל-Cloud TTS קלט SSML שמסמן מספרים סידוריים כמספרים סידוריים.


דוגמה 5. קובץ אודיו שנוצר מקלט טקסט פשוט


דוגמה 6. קובץ אודיו שנוצר מקלט SSML

מידע נוסף על סינתזת דיבור מ-SSML זמין במאמר בנושא יצירת קובצי אודיו של קולות.

מה השלב הבא?

כדי להתחיל להשתמש ב-Cloud Text-to-Speech, תוכלו להיעזר במדריך ההגדרה שלנו.