Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

שפת סימון לסינתזת דיבור (SSML)

אתם יכולים לשלוח בקשה ל-Cloud Text-to-Speech עם Speech Synthesis Markup Language (SSML) כדי להתאים אישית את התשובה הקולית. כך תוכלו לציין פרטים על הפסקות ועל עיצוב אודיו של ראשי תיבות, תאריכים, שעות, קיצורים או טקסט שצריך לצנזר. מידע נוסף ודוגמאות קוד זמינים במדריך בנושא SSML ב-Cloud TTS.

בדוגמה הבאה מוצג תג SSML, ו-Cloud TTS מסנתז את הטקסט:

<speak>
  Here are <say-as interpret-as="characters">SSML</say-as> samples.
  I can pause <break time="3s"/>.
  I can play a sound
  <audio src="https://www.example.com/MY_MP3_FILE.mp3">didn't get your MP3 audio file</audio>.
  I can speak in cardinals. Your number is <say-as interpret-as="cardinal">10</say-as>.
  Or I can speak in ordinals. You are <say-as interpret-as="ordinal">10</say-as> in line.
  Or I can even speak in digits. The digits for ten are <say-as interpret-as="characters">10</say-as>.
  I can also substitute phrases, like the <sub alias="World Wide Web Consortium">W3C</sub>.
  Finally, I can speak a paragraph with two sentences.
  <p><s>This is sentence one.</s><s>This is sentence two.</s></p>
</speak>

הנה הטקסט שעבר סינתזה במסמך ה-SSML לדוגמה:

Here are S S M L samples. I can pause [3 second pause]. I can play a sound [audio file plays].
I can speak in cardinals. Your number is ten.
Or I can speak in ordinals. You are tenth in line.
Or I can even speak in digits. The digits for ten are one oh.
I can also substitute phrases, like the World Wide Web Consortium.
Finally, I can speak a paragraph with two sentences. This is sentence one. This is sentence two.

‫Cloud TTS תומך בקבוצת משנה של תגי SSML הזמינים, שמתוארים בנושא הזה.

מידע נוסף על יצירת נתוני אודיו מקלט SSML באמצעות Cloud TTS זמין במאמר יצירת קובצי אודיו של קולות.

נסו בעצמכם

אנחנו ממליצים למשתמשים חדשים ב-Google Cloud ליצור חשבון כדי שיוכלו להעריך את הביצועים של Cloud TTS בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300 $להרצה, לבדיקה ולפריסה של עומסי העבודה.

להתנסות ב-Cloud TTS בחינם

טיפים לשימוש ב-SSML

בהתאם להטמעה, יכול להיות שתצטרכו להשתמש בתו בריחה כדי להוסיף מרכאות או גרשיים למטען הייעודי (payload) של SSML שאתם שולחים ל-Cloud TTS. בדוגמה הבאה מוצג פורמט של קלט SSML שכלול באובייקט JSON.

"{
    'input':{
     'ssml':'<speak>The <say-as interpret-as=\"characters\">SSML</say-as>
          standard <break time=\"1s\"/>is defined by the
          <sub alias=\"World Wide Web Consortium\">W3C</sub>.</speak>'
    },
    'voice':{
      'languageCode':'en-us',
      'name':'en-US-Standard-B',
      'ssmlGender':'MALE'
    },
    'audioConfig':{
      'audioEncoding':'MP3'
    }
  }"

תווים שמורים

לא להשתמש בתווים שמורים של SSML בטקסט שרוצים להמיר לאודיו. כשצריך להשתמש בתו שמור ב-SSML, צריך להשתמש בקוד הבריחה שלו כדי למנוע את הקריאה של התו כקוד. בטבלה הבאה מוצגים תווים שמורים ב-SSML וקודי הבריחה שמשויכים אליהם.

המשמעות של "על סמך תווים"	קוד בריחה
"	`"`
&	`&`
'	`'`
>	`<`
>	`>`

בחירת קול

אפשר להגדיר את הקול באובייקט VoiceSelectionParams. במדריך ל-SSML של Text-to-Speech יש דוגמת קוד שממחישה את השימוש באובייקט VoiceSelectionParams.

אפשר להשתמש בתג <voice> כדי לקרוא SSML בכמה קולות, אבל צריך להגדיר את שם VoiceSelectionParams לקול תואם:

סוג הקול המבוקש	הקלדה קולית נתמכת בתג <voice>
סוג הקול המבוקש	Neural2	Studio	Wavenet	חדשות	רגילה
Neural2	✔	✔			✔
Studio	✔	✔			✔
Wavenet			✔	✔	✔
רגילה	✔	✔			✔
חדשות			✔	✔	✔

תמיכה ברכיבי SSML

בקטעים הבאים מפורטים רכיבי ה-SSML והאפשרויות שבהם אפשר להשתמש בפעולות שלכם.

`<speak>`

רכיב הבסיס של תגובת ה-SSML.

מידע נוסף על רכיבים מסוג speak זמין במפרט של W3.

דוגמה

<speak>
  my SSML content
</speak>

`<break>`

רכיב ריק ששולט בהשהיה או בגבולות פרוזודיים אחרים בין מילים. השימוש ב-<break> בין כל צמד של טוקנים הוא אופציונלי. אם הרכיב הזה לא מופיע בין המילים, המערכת קובעת את ההפסקה באופן אוטומטי על סמך ההקשר הלשוני.

מידע נוסף על רכיבים מסוג break זמין במפרט של W3.

מאפיינים

מאפיין תיאור

מאפיין	תיאור
`time`	מגדיר את אורך ההפסקה בשניות או באלפיות השנייה (לדוגמה, 3s או 250ms).
`strength`	הגדרה של עוצמת ההפסקה הפרוזודית בפלט באמצעות מונחים יחסיים. הערכים התקינים הם: x-weak,‏ weak,‏ medium,‏ strong ו-x-strong. הערך none מציין שלא צריך להפיק גבול של הפסקה פרוסודית, ואפשר להשתמש בו כדי למנוע הפסקה פרוסודית שהמעבד היה מפיק אחרת. הערכים האחרים מציינים את חוזק השבירה שאינו פוחת באופן מונוטוני (עולה מבחינה מושגית) בין הטוקנים. בדרך כלל, הגבולות החזקים יותר מלווים בהפסקות.

time

מגדיר את אורך ההפסקה בשניות או באלפיות השנייה (לדוגמה, 3s או 250ms).

strength

הגדרה של עוצמת ההפסקה הפרוזודית בפלט באמצעות מונחים יחסיים. הערכים התקינים הם: x-weak,‏ weak,‏ medium,‏ strong ו-x-strong. הערך none מציין שלא צריך להפיק גבול של הפסקה פרוסודית, ואפשר להשתמש בו כדי למנוע הפסקה פרוסודית שהמעבד היה מפיק אחרת. הערכים האחרים מציינים את חוזק השבירה שאינו פוחת באופן מונוטוני (עולה מבחינה מושגית) בין הטוקנים. בדרך כלל, הגבולות החזקים יותר מלווים בהפסקות.

דוגמה

בדוגמה הבאה אפשר לראות איך משתמשים ברכיב <break> כדי להשהות בין שלבים:

<speak>
  Step 1, take a deep breath. <break time="200ms"/>
  Step 2, exhale.
  Step 3, take a deep breath again. <break strength="weak"/>
  Step 4, exhale.
</speak>

`<say‑as>`

האלמנט הזה מאפשר לציין מידע על סוג מבנה הטקסט שנכלל באלמנט. הוא גם עוזר לציין את רמת הפירוט של עיבוד הטקסט שמופיע בו.

לאלמנט <say‑as> יש מאפיין חובה, interpret-as, שקובע איך הערך יבוטא. אפשר להשתמש במאפיינים האופציונליים format ו-detail בהתאם לערך הספציפי של interpret-as.

דוגמאות

במאפיין interpret-as אפשר להזין את הערכים הבאים:

currency
בדוגמה הבאה, הסכום הוא "ארבעים ושניים דולר וסנט אחד". אם לא מציינים את מאפיין השפה, המערכת משתמשת בלוקאל הנוכחי.
```
<speak>
 <say-as interpret-as='currency' language='en-US'>$42.01</say-as>
</speak>
 
```
telephone
אפשר לעיין בתיאור של interpret-as='telephone' בהערה של קבוצת העבודה W3C SSML 1.0 say-as attribute values.

בדוגמה הבאה, המספר נאמר כך: "one eight zero zero two zero two one two one two". אם משמיטים את המאפיין google:style, המערכת תגיד אפס כמו האות O.

המאפיין google:style='zero-as-zero' פועל כרגע רק בלוקאלים של EN.
```
 <speak>
 <say-as interpret-as='telephone' google:style='zero-as-zero'>1800-202-1212</say-as>
 </speak>
 
```
verbatim או spell-out
בדוגמה הבאה, כל אות מאויתת:
```
<speak>
 <say-as interpret-as="verbatim">abcdefg</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
date
המאפיין format הוא רצף של קודי תווים של שדה תאריך. קוד התווים של השדות הנתמכים ב-format הוא {y, m, d} עבור שנה, חודש ויום (בחודש) בהתאמה. אם קוד השדה מופיע פעם אחת בשנה, בחודש או ביום, מספר הספרות הצפוי הוא 4, 2 ו-2 בהתאמה. אם קוד השדה חוזר על עצמו, מספר הספרות הצפוי הוא מספר הפעמים שהקוד חוזר על עצמו. יכול להיות ששדות הטקסט של התאריך יופרדו באמצעות סימני פיסוק או רווחים.

המאפיין detail קובע את הצורה המדוברת של התאריך. במקרה של detail='1', חובה למלא רק את שדות היום ואחד משדות החודש או השנה, אבל אפשר למלא את שניהם. זו ברירת המחדל אם לא מציינים את כל שלושת השדות. הצורה המדוברת היא "The {ordinal day} of {month}, {year}".

הדוגמה הבאה נאמרת כך: "העשירי בספטמבר, אלף תשע מאות שישים":
```
<speak>
 <say-as interpret-as="date" format="yyyymmdd" detail="1">
 1960-09-10
 </say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.

בדוגמה הבאה, התאריך נאמר כך: "The tenth of September":
```
<speak>
 <say-as interpret-as="date" format="dm">10-9</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.

detail='2' בשדות של היום, החודש והשנה חובה לציין ערכים, וזו ברירת המחדל כשמציינים ערכים בכל שלושת השדות. הצורה המדוברת היא ‎ "{month} {ordinal day}, {year}"‎.

הדוגמה הבאה נאמרת כך: "September tenth, nineteen sixty":
```
<speak>
 <say-as interpret-as="date" format="dmy" detail="2">
 10-9-1960
 </say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
characters
בדוגמה הבאה, המילה שנאמרת היא C A N:
```
<speak>
 <say-as interpret-as="characters">can</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
cardinal
בדוגמה הבאה, המספר נאמר כ-"Twelve thousand three hundred forty five" (באנגלית אמריקאית) או כ-"Twelve thousand three hundred and forty five" (באנגלית בריטית):
```
<speak>
 <say-as interpret-as="cardinal">12345</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
ordinal
בדוגמה הבאה, המילה שנאמרת היא First:
```
<speak>
 <say-as interpret-as="ordinal">1</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
fraction
בדוגמה הבאה, המספר הוא "חמש וחצי":
```
<speak>
 <say-as interpret-as="fraction">5+1/2</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
expletive או bleep
הדוגמה הבאה מושמעת כצפצוף, כאילו היא צונזרה:
```
<speak>
 <say-as interpret-as="expletive">censor this</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
unit
הפונקציה ממירה יחידות ליחיד או לרבים בהתאם למספר. בדוגמה הבאה, אומרים "10 feet":
```
<speak>
 <say-as interpret-as="unit">10 foot</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.
time
בדוגמה הבאה, השעה היא "שתיים וחצי בצהריים":
```
<speak>
 <say-as interpret-as="time" format="hms12">2:30pm</say-as>
</speak>
 
```
הדפדפן שלך לא תומך ברכיב האודיו HTML5.

המאפיין format הוא רצף של קודי תווים של שדות זמן. קודי התווים של השדות שנתמכים ב-format הם {h,m, s, Z, 12, 24} לשעה, לדקה (בשעה), לשנייה (בדקה), לאזור זמן, לשעה בפורמט של 12 שעות ולשעה בפורמט של 24 שעות, בהתאמה. אם קוד השדה מופיע פעם אחת בשעה, בדקה או בשנייה, אז מספר הספרות הצפוי הוא 1, 2 ו-2 בהתאמה. אם קוד השדה חוזר על עצמו, מספר הספרות הצפוי הוא מספר הפעמים שהקוד חוזר על עצמו. יכול להיות שיהיו סימני פיסוק ו/או רווחים בין השדות של הטקסט שמתאר את השעה. אם לא מציינים את השעה, הדקה או השנייה בפורמט, או אם אין ספרות תואמות, השדה נחשב כערך אפס. ברירת המחדל format היא hms12.

המאפיין detail קובע אם הזמן ייאמר בפורמט של 12 שעות או 24 שעות. הפורמט של השעה הוא 24 שעות אם מציינים את detail='1' או אם משמיטים את detail. השעה תהיה בפורמט של 12 שעות אם detail='2' או אם detail לא מצוינים והפורמט של השעה הוא פורמט של 12 שעות.

מידע נוסף על רכיבים מסוג say-as זמין במפרט של W3.

`<audio>`

תמיכה בהוספה של קובצי אודיו מוקלטים ובהוספה של פורמטים אחרים של אודיו בשילוב עם פלט של דיבור מסונתז.

מאפיינים

מאפיין	חובה	ברירת מחדל	ערכים
`src`	כן	לא רלוונטי	‫URI שמפנה למקור של מדיה אודיו. הפרוטוקול הנתמך הוא `https`.
`clipBegin`	לא	0	TimeDesignation שהוא ההיסט מתחילת מקור האודיו שממנו מתחילה ההפעלה. אם הערך הזה גדול מהמשך בפועל של מקור האודיו או שווה לו, לא יוכנס אודיו.
`clipEnd`	לא	אינסוף	‫TimeDesignation שמייצג את ההיסט מתחילת מקור האודיו ועד לסיום ההפעלה. אם משך הזמן בפועל של מקור האודיו קצר מהערך הזה, ההפעלה מסתיימת בזמן הזה. אם `clipBegin` גדול מ-`clipEnd` או שווה לו, לא מוסיפים אודיו.
`speed`	לא	100%	היחס בין מהירות ההפעלה של הפלט לבין קצב הקלט הרגיל, שמוצג באחוזים. הפורמט הוא מספר ממשי חיובי ואחריו הסימן %. הטווח הנתמך כרגע הוא [‎50% (איטי – חצי מהירות), ‎200% (מהיר – מהירות כפולה)]. יכול להיות שערכים מחוץ לטווח הזה יותאמו כדי להיכלל בו (או שלא).
`repeatCount`	לא	‫1 או 10 אם `repeatDur` מוגדר	מספר ממשי שמציין כמה פעמים להוסיף את האודיו (אחרי חיתוך, אם יש, באמצעות `clipBegin` או `clipEnd`). לא ניתן להשתמש בחלקים של חזרות, ולכן הערך יעוגל למספר השלם הקרוב ביותר. אפס הוא לא ערך תקין ולכן הוא נחשב כערך לא מוגדר, ובמקרה כזה מוגדר ערך ברירת המחדל.
`repeatDur`	לא	אינסוף	‫TimeDesignation שהוא מגבלה על משך הזמן של האודיו שמוסיפים אחרי שהמקור עובר עיבוד למאפיינים `clipBegin`, `clipEnd`, `repeatCount` ו-`speed` (במקום משך ההפעלה הרגיל). אם משך הזמן של האודיו שעבר עיבוד קצר מהערך הזה, ההפעלה מסתיימת בזמן הזה.
`soundLevel`	לא	+0dB	שינוי עוצמת הקול של האודיו ב-`soundLevel` דציבלים. הטווח המקסימלי הוא ‎+/-40dB, אבל הטווח בפועל עשוי להיות קטן יותר, ואיכות הפלט עשויה שלא להניב תוצאות טובות בכל הטווח.

אלה ההגדרות הנתמכות כרגע לאודיו:

פורמט: MP3 (MPEG v2)
- ‫24,000 דגימות לשנייה
- ‫24K עד 96K ביטים לשנייה, קצב קבוע
פורמט: Opus ב-Ogg
- ‫24,000 דגימות לשנייה (פס רחב במיוחד)
- ‫24K עד 96K ביטים לשנייה, קצב קבוע
פורמט (הוצא משימוש): WAV (RIFF)
- PCM 16-bit signed, little endian
- ‫24,000 דגימות לשנייה
לכל הפורמטים:
- מומלץ להשתמש בערוץ יחיד, אבל אפשר להשתמש גם בסטריאו.
- משך הזמן המקסימלי הוא 240 שניות. אם רוצים להשמיע אודיו למשך זמן ארוך יותר, כדאי להטמיע תגובה עם מדיה.
- גודל הקובץ המקסימלי הוא 5MB.
- כתובת ה-URL של המקור חייבת להשתמש בפרוטוקול HTTPS.
- ה-UserAgent שלנו כשמאחזרים את האודיו הוא Google-Speech-Actions.

התוכן של רכיב <audio> הוא אופציונלי, והוא משמש אם אי אפשר להפעיל את קובץ האודיו או אם מכשיר הפלט לא תומך באודיו. התוכן יכול לכלול רכיב <desc>, ובמקרה כזה התוכן הטקסטואלי של הרכיב הזה ישמש לתצוגה. מידע נוסף זמין בקטע 'אודיו מוקלט' ברשימת התיוג של התשובות.

כתובת ה-URL של src חייבת להיות גם כתובת URL מסוג HTTPS (אפשר לארח את קובצי האודיו בכתובת URL מסוג HTTPS ב-Google Cloud Storage).

מידע נוסף על תגובות עם מדיה זמין בקטע תגובות עם מדיה במדריך לתגובות.

מידע נוסף על רכיבים מסוג audio זמין במפרט של W3.

דוגמה

<speak>
  <audio src="cat_purr_close.ogg">
    <desc>a cat purring</desc>
    PURR (sound didn't load)
  </audio>
</speak>

`,<s>`

אלמנטים של משפטים ופסקאות.

מידע נוסף על הרכיבים p ו-s זמין במפרט של W3.

דוגמה

<p><s>This is sentence one.</s><s>This is sentence two.</s></p>

שיטות מומלצות

משתמשים בתגי <s>...</s> כדי לתחום משפטים שלמים, במיוחד אם הם מכילים רכיבי SSML שמשנים את המלודיה (כלומר, <audio>,‏ <break>,‏ <emphasis>,‏ <par>,‏ <prosody>,‏ <say-as>,‏ <seq> ו-).
אם רוצים להוסיף הפסקה ארוכה מספיק כדי שיהיה אפשר לשמוע אותה, משתמשים בתגיות <s>...</s> ומציבים את ההפסקה בין המשפטים.

``

מציינים שהטקסט בערך מאפיין הכינוי מחליף את הטקסט שמופיע בו לצורך הגייה.

אפשר גם להשתמש ברכיב sub כדי לספק הגייה פשוטה של מילה שקשה לקרוא. בדוגמה האחרונה שבהמשך מוצג תרחיש השימוש הזה ביפנית.

מידע נוסף על רכיבים מסוג sub זמין במפרט של W3.

דוגמאות

<sub alias="World Wide Web Consortium">W3C</sub>

<sub alias="にっぽんばし">日本橋</sub>

``

רכיב ריק שמציב סמן ברצף הטקסט או התגים. אפשר להשתמש בו כדי להפנות למיקום ספציפי ברצף או כדי להוסיף סמן לזרם פלט לקבלת התראה אסינכרונית.

הערה: כשמשתמשים ברכיב mark, חשוב לפעול לפי ההנחיות הבאות:

במקום להוסיף תגי עיצוב מותאמים אישית בתחילת ה-SSML או בסופו, צריך להשתמש בתגי העיצוב START ו-END.
אל תוסיפו סימנים עוקבים ב-SSML. יכול להיות שסימון מהיר של כמה הודעות ברצף לא ייצור אירועים. בנוסף, אם לא נוצר אודיו בין התגים, לא ייווצרו אירועים. לדוגמה, אל תבצעו את הפעולות הבאות:
Sentence 1. Sentence 2.

הערה: כדי שיהיה לכם נוח, תקבלו באופן אוטומטי אירועים מסוג START ו-END בתגובות שלכם ל-Interactive Canvas. הסימנים האלה לא נכללים במפרט W3.

מידע נוסף על רכיבים מסוג mark זמין במפרט של W3.

דוגמה

<speak>
Go from <mark name="here"/> here, to <mark name="there"/> there!
</speak>

`<prosody>`

משמש להתאמה אישית של גובה הצליל, קצב הדיבור והעוצמה של הטקסט שמופיע באלמנט. בשלב הזה יש תמיכה במאפיינים rate, pitch ו-volume.

אפשר להגדיר את המאפיינים rate ו-volume בהתאם למפרטים של W3. יש שלוש אפשרויות להגדרת הערך של מאפיין pitch:

הערה: צריך להשתמש בתגי <prosody> רק מסביב למשפט שלם. הוספת מילים בתוך משפט עלולה לגרום להפסקות לא רצויות בדיבור.

מאפיין	תיאור
`name`	מזהה המחרוזת של כל סימן.

אפשרות	תיאור
קרוב-משפחה	מציינים ערך יחסי (למשל, low,‏ medium,‏ high וכו'), כאשר medium הוא גובה הצליל שמוגדר כברירת מחדל.
חצאי טונים	כדי להגביר או להנמיך את גובה הצליל ב-N חצאי טונים, משתמשים בערכים ‎+Nst או ‎-Nst בהתאמה. שימו לב שחובה להשתמש בסימנים '+/-' ו-'st'.
אחוז	הגבהה או הנמכה של גובה הצליל ב-N אחוזים באמצעות ‎+N%‎ או ‎-N%‎ בהתאמה. שימו לב שחובה להשתמש בסימן '%', אבל לא חייבים להשתמש בסימן '+/-'.

מידע נוסף על רכיבים מסוג prosody זמין במפרט של W3.

דוגמה

בדוגמה הבאה משתמשים ברכיב <prosody> כדי לדבר לאט יותר, ב-2 חצאי טון מתחת לרגיל:

<prosody rate="slow" pitch="-2st">Can you hear me now?</prosody>

`<emphasis>`

משמש להוספה או להסרה של הדגשה מטקסט שנכלל ברכיב. האלמנט <emphasis> משנה את הדיבור באופן דומה לאלמנט <prosody>, אבל בלי הצורך להגדיר מאפייני דיבור ספציפיים.

הערה: צריך להשתמש בתגי <emphasis> רק מסביב למשפט שלם. הוספת מילים בתוך משפט עלולה לגרום להפסקות לא רצויות בדיבור.

הרכיב הזה תומך במאפיין אופציונלי בשם level עם הערכים התקפים הבאים:

strong
moderate
none
reduced

מידע נוסף על רכיבים מסוג emphasis זמין במפרט של W3.

דוגמה

בדוגמה הבאה משתמשים ברכיב <emphasis> כדי להודיע על משהו:

<emphasis level="moderate">This is an important announcement</emphasis>

`<par>`

קונטיינר מדיה מקביל שמאפשר להפעיל כמה רכיבי מדיה בו-זמנית. התוכן היחיד שמותר הוא קבוצה של רכיב אחד או יותר מסוג <par>, <seq> ו-<media>. אין חשיבות לסדר הרכיבים <media>.

אלא אם רכיב צאצא מציין שעת התחלה שונה, שעת ההתחלה המרומזת של הרכיב זהה לשעת ההתחלה של רכיב <par> המכיל. אם לרכיב צאצא מוגדר ערך היסט במאפיין begin או end, ההיסט של הרכיב יהיה יחסי לזמן ההתחלה של מאגר התגים <par>. במקרה של רכיב הבסיס <par>, המערכת מתעלמת מהמאפיין begin, והזמן שבו מתחיל התהליך הוא הזמן שבו תהליך סינתזת הדיבור של SSML מתחיל ליצור פלט עבור רכיב הבסיס <par> (כלומר, למעשה הזמן 'אפס').

דוגמה

<speak>
  <par>
    <media xml:id="question" begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media xml:id="answer" begin="question.end+2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media begin="answer.end-0.2s" soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </par>
</speak>

`<seq>`

קונטיינר מדיה רציף שמאפשר להפעיל רכיבי מדיה אחד אחרי השני. התוכן היחיד שמותר הוא קבוצה של רכיב אחד או יותר מסוג <seq>, <par> ו-<media>. הסדר של רכיבי המדיה הוא הסדר שבו הם עוברים עיבוד.

אפשר להגדיר את מאפייני begin ו-end של רכיבי צאצא לערכי היסט (ראו הגדרת זמן בהמשך). ערכי ההיסט של רכיבי הצאצא האלה יהיו יחסי לסוף של הרכיב הקודם ברצף, או במקרה של הרכיב הראשון ברצף, יחסי להתחלה של הקונטיינר <seq> שלו.

דוגמה

<speak>
  <seq>
    <media begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media begin="2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </seq>
</speak>

`<media>`

מייצג שכבת מדיה בתוך רכיב <par> או <seq>. התוכן המותר של רכיב <media> הוא רכיב SSML <speak> או <audio>. בטבלה הבאה מפורטים המאפיינים התקינים של רכיב <media>.

מאפיינים

מאפיין	חובה	ברירת מחדל	ערכים
‫xml:id	לא	אין ערך	מזהה XML ייחודי של הרכיב. אין תמיכה בישויות מקודדות. ערכי המזהה המותרים תואמים לביטוי הרגולרי `"([-_#]\|\p{L}\|\p{D})+"`. מידע נוסף זמין במאמר בנושא מזהה XML.
begin	לא	0	שעת ההתחלה של מאגר המדיה הזה. המערכת מתעלמת מהערך אם זהו אלמנט מאגר המדיה הבסיסי (ההתנהגות זהה להתנהגות של ברירת המחדל '0'). בקטע ציון זמן שבהמשך מפורטים ערכי המחרוזת התקינים.
end	לא	אין ערך	מפרט של שעת הסיום של מאגר המדיה הזה. בקטע ציון זמן שבהמשך מפורטים ערכי המחרוזת התקינים.
repeatCount	לא	1	מספר ממשי שמציין כמה פעמים להוסיף את המדיה. אין תמיכה בחזרות חלקיות, ולכן הערך יעוגל למספר השלם הקרוב ביותר. אפס הוא לא ערך תקין ולכן הוא נחשב כערך לא מוגדר, ובמקרה כזה מוגדר ערך ברירת המחדל.
repeatDur	לא	אין ערך	‫TimeDesignation שמגדיר מגבלה על משך הזמן של המדיה שמוסיפים. אם משך הזמן של המדיה קצר מהערך הזה, ההפעלה מסתיימת בזמן הזה.
soundLevel	לא	+0dB	שינוי עוצמת הקול של האודיו ב-`soundLevel` דציבלים. הטווח המקסימלי הוא ‎+/-40dB, אבל הטווח בפועל עשוי להיות קטן יותר, ואיכות הפלט עשויה שלא להניב תוצאות טובות בכל הטווח.
fadeInDur	לא	‫0 שניות	TimeDesignation שקובע את משך הזמן שבו עוצמת הקול של המדיה תעלה בהדרגה מאפס לעוצמה שצוינה ב-`soundLevel` (אם צוינה). אם משך ההפעלה של המדיה קצר מהערך הזה, ההגברה תסתיים בסוף ההפעלה ועוצמת הקול לא תגיע לרמה שצוינה.
fadeOutDur	לא	‫0 שניות	TimeDesignation שקובע את משך הזמן שבו עוצמת הקול של המדיה תדעך מהערך האופציונלי שצוין `soundLevel` עד שהיא תהיה מושתקת. אם משך הזמן של המדיה קצר מהערך הזה, רמת הקול מוגדרת לערך נמוך יותר כדי להבטיח שהשקט יושג בסוף ההפעלה.

מפרט הזמן

מפרט זמן, שמשמש לערך של מאפייני begin ו-end של רכיבי <media> ושל מאגרי מדיה (רכיבי <par> ו-<seq>), הוא ערך offset (לדוגמה, +2.5s) או ערך syncbase (לדוגמה, foo_id.end-250ms).

ערך ההיסט – ערך ההיסט של הזמן הוא ערך של ספירת זמן ב-SMIL, שמותרים בו ערכים שתואמים לביטוי הרגולרי: "\s\*(+|-)?\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"
מחרוזת הספרות הראשונה היא החלק השלם של המספר העשרוני, ומחרוזת הספרות השנייה היא החלק השברי העשרוני. סימן ברירת המחדל (כלומר, "(+|-)?") הוא "+". ערכי היחידות תואמים לשעות, דקות, שניות ואלפיות השנייה בהתאמה. ברירת המחדל של היחידות היא s (שניות).
ערך syncbase – ערך syncbase הוא ערך syncbase של SMIL שמאפשר ערכים שתואמים לביטוי הרגולרי: "([-_#]|\p{L}|\p{D})+\.(begin|end)\s\*(+|-)\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"
הספרות והיחידות מפורשות באותו אופן כמו ערך של היסט.

`<phoneme>`

אפשר להשתמש בתג <phoneme> כדי ליצור הגייה מותאמת אישית של מילים בשורה. ‫Cloud TTS מקבל את האלפבית הפונטי IPA ואת האלפבית הפונטי X-SAMPA. בדף הפונמות מופיעה רשימה של השפות והפונמות הנתמכות.

כל שימוש בתג <phoneme> מכוון את ההגייה של מילה אחת:

  <phoneme alphabet="ipa" ph="ˌmænɪˈtoʊbə">manitoba</phoneme>
  <phoneme alphabet="x-sampa" ph='m@"hA:g@%ni:'>mahogany</phoneme>

סמני לחץ

יש עד שלוש רמות של הדגשה שאפשר להוסיף לתמליל:

ההברה המושמת: מסומנת ב-ˈ ב-IPA וב-" ב-X-SAMPA.
הדגשה משנית: מסומנת ב-IPA באמצעות /ˌ/ וב-X-SAMPA באמצעות /%/.
לא מוטעמת: לא מסומנת בסמל (באף אחת מהשיטות).

יכול להיות שבחלק מהשפות יש פחות משלוש רמות או שלא מצוין בהן מיקום ההטעמה בכלל. בדף הפונמות מפורטות רמות ההדגשה שזמינות בשפה שלכם. סמני לחץ מוצבים בתחילת כל הברה מוטעמת. לדוגמה, באנגלית אמריקאית:

מילה לדוגמה	IPA	X-SAMPA
מים	ˈwɑːtɚ	"wA:t@`
מתחת למים	ˌʌndɚˈwɑːtɚ	%Vnd@"wA:t@

תמלול רחב לעומת תמלול מצומצם

כלל אצבע מומלץ הוא להשתמש בתמלילים רחבים יותר שמתמקדים בפונמות. לדוגמה, באנגלית אמריקאית, תמלול של /t/ בין תנועות (במקום להשתמש ב-tap):

מילה לדוגמה	IPA	X-SAMPA
חמאה	ˈbʌtɚ במקום ˈbʌɾɚ	‫"bVt@` במקום "bV4@`

יש מקרים שבהם השימוש בייצוג הפונמי גורם לתוצאות של ה-TTS להישמע לא טבעיות (לדוגמה, אם רצף הפונמות קשה להגייה מבחינה אנטומית).

דוגמה לכך היא הטמעה של קולות עבור /s/ באנגלית. במקרה כזה, ההטמעה צריכה להופיע בתמליל:

מילה לדוגמה	IPA	X-SAMPA
חתולים	ˈkæts	‪"k{ts
כלבים	‫ˈdɑːgz במקום ˈdɑːgs	‫dA:gz במקום dA:gs

הוזלה

כל הברה חייבת להכיל תנועה אחת (ורק אחת). המשמעות היא שצריך להימנע מהעיצורים ההברתיים ולתעתק אותם עם תנועה מופחתת. לדוגמה:

מילה לדוגמה	IPA	X-SAMPA
חתלתול	‫ˈkɪtən במקום ˈkɪtn	‫"kIt@n במקום "kitn
קומקום	‫ˈkɛtəl במקום ˈkɛtl	‫kEt@l במקום kEtl

חלוקה להברות

אפשר לציין גבולות של הברות באמצעות /./. כל הברה צריכה להכיל תנועה אחת (ורק אחת). לדוגמה:

מילה לדוגמה	IPA	X-SAMPA
קריאוּת	ˌɹiː.də.ˈbɪ.lə.tiː	%r\i:.d@."bI.l@.ti:

מילון הגייה בהתאמה אישית

במקום לספק הגייה בשורה עם התג phoneme, אפשר לספק מילון של הגדרות הגייה מותאמות אישית ב-RPC של סינתזת הדיבור. כשמילון ההגייה המותאם אישית נמצא בבקשה, טקסט הקלט ישתנה באופן אוטומטי באמצעות תג ה-SSML‏ phoneme.

לדוגמה, הבקשה הבאה עם קלט טקסט והגייה מותאמת אישית תעבור שינוי ותהיה שוות ערך ל-SSML שבהמשך.

הקלט המקורי:

input: {
  text: 'Hello world! It is indeed a beautiful world!',
  custom_pronunciations: {
    pronunciations: {
      phrase: 'world'
      phonetic_encoding: PHONETIC_ENCODING_IPA
      pronunciation: 'wɜːld'
    }
  }
}

קלט שעבר טרנספורמציה:

input: {
  ssml: '<speak>Hello <phoneme alphabet="ipa" ph="wɜːld">world</phoneme>! It is indeed a beautiful <phoneme alphabet="ipa" ph="wɜːld">world</phoneme>!</speak>'
}

משכי זמן

‫Cloud Text-to-Speech תומך ב-<say-as interpret-as="duration"> כדי לקרוא משכי זמן בצורה נכונה. לדוגמה, הדוגמה הבאה תבוטא כך: "five hours and thirty minutes":

<say-as interpret-as="duration" format="h:m">5:30</say-as>

מחרוזת הפורמט תומכת בערכים הבאים:

קיצור	ערך
שע'	שעות
m	דקות
s	seconds
גְבֶרֶת	אלפיות שנייה

`<voice>`

התג <voice> מאפשר להשתמש ביותר מקול אחד בבקשת SSML אחת. בדוגמה הבאה, קול ברירת המחדל הוא קול גברי באנגלית. כל המילים יסונתזו בקול הזה, חוץ מהמילים "qu'est-ce qui t'amène ici", שיוקראו בצרפתית בקול של אישה במקום בשפת ברירת המחדל (אנגלית) ובמקום בקול של גבר.

<speak>And then she asked, <voice language="fr-FR" gender="female">qu'est-ce qui
t'amène ici</voice><break time="250ms"/> in her sweet and gentle voice.</speak>

אפשרות אחרת היא להשתמש בתג <voice> כדי לציין קול ספציפי (שם הקול בדף הקולות הנתמכים) במקום לציין language או gender:

<speak>The dog is friendly<voice name="fr-CA-Wavenet-B">mais la chat est
mignon</voice><break time="250ms"/> said a pet shop
owner</speak>

כשמשתמשים בתג <voice>, מערכת Cloud TTS מצפה לקבל name (שם הקול שרוצים להשתמש בו) או שילוב של המאפיינים הבאים. כל שלושת המאפיינים הם אופציונליים, אבל אם לא מציינים name, צריך לציין לפחות אחד מהם.

‫gender: אחת מהאפשרויות male,‏ female או neutral.
‫variant: משמש להכרעה במקרים שבהם יש כמה אפשרויות לבחירת הקול לשימוש על סמך ההגדרה.
‫language: השפה הרצויה. אפשר לציין רק שפה אחת בתג <voice> נתון. מציינים את השפה בפורמט BCP-47. אפשר למצוא את קוד BCP-47 של השפה בעמודה קוד שפה בדף השפות והקולות הנתמכים.

אפשר גם לקבוע את העדיפות היחסית של כל אחד מהמאפיינים gender, variant ו-language באמצעות שני תגים נוספים: required ו-ordering.

‫required: אם מאפיין מוגדר כ-required ולא מוגדר בצורה נכונה, הבקשה תיכשל.
‫ordering: כל המאפיינים שמפורטים אחרי תג ordering נחשבים למאפיינים מועדפים ולא למאפייני חובה. ‫Cloud Text-to-Speech API מתייחס למאפיינים המועדפים על בסיס המאמץ הטוב ביותר, לפי הסדר שבו הם מופיעים אחרי התג ordering. אם יש מאפיינים מועדפים שהוגדרו בצורה שגויה, יכול להיות ש-Cloud TTS עדיין יחזיר קול תקין, אבל בלי ההגדרה השגויה.

דוגמאות להגדרות באמצעות התגים required ו-ordering:

<speak>And there it was <voice language="en-GB" gender="male" required="gender"
ordering="gender language">a flying bird </voice>roaring in the skies for the
first time.</speak>

<speak>Today is supposed to be <voice language="en-GB" gender="female"
ordering="language gender">Sunday Funday.</voice></speak>

`<lang>`

אתם יכולים להשתמש ב-<lang> כדי לכלול טקסט בכמה שפות באותה בקשת SSML. כל השפות יסונתזו באותו קול, אלא אם משתמשים בתג <voice> כדי לשנות את הקול באופן מפורש. המחרוזת xml:lang צריכה להכיל את שפת היעד בפורמט BCP-47 (הערך הזה מופיע כ'קוד שפה' בטבלה של הקולות הנתמכים). בדוגמה הבאה, המילה chat תיאמר בצרפתית במקום בשפת ברירת המחדל (אנגלית):

<speak>The french word for cat is <lang xml:lang="fr-FR">chat</lang></speak>

‫Cloud Text-to-Speech תומך בתג <lang> על בסיס האפשרות הטובה ביותר. לא כל השילובים של שפות מניבים תוצאות באיכות זהה אם הם מצוינים באותה בקשת SSML. במקרים מסוימים, שילוב של שפות עשוי ליצור אפקט שאפשר לזהות אותו אבל הוא עדין או נתפס כשלילי. בעיות מוכרות:

התג <lang> לא תומך ביפנית עם תווים של קאנג'י. הקלט מתועתק ומוקרא כתווים סיניים.
אין תמיכה בשפות שמיות כמו ערבית, עברית ופרסית בתג <lang>, והשימוש בהן יגרום להשמעה של שקט. אם רוצים להשתמש באחת מהשפות האלה, מומלץ להשתמש בתג <voice> כדי לעבור לקול שמדבר בשפה הרצויה (אם היא זמינה).

נקודות זמן ב-SSML

‫Text-to-Speech API תומך בשימוש בנקודות זמן בנתוני האודיו שנוצרו. נקודת זמן היא חותמת זמן (בשניות, שנמדדת מתחילת האודיו שנוצר) שמתאימה לנקודה ייעודית בסקריפט. אפשר להגדיר נקודת זמן בסקריפט באמצעות התג . כשנוצר האודיו, ה-API מחזיר את הזמן שחלף בין תחילת האודיו לבין נקודת הזמן.

יש שני שלבים להגדרת נקודת זמן:

מוסיפים תג  SSML לנקודה בתסריט שרוצים להוסיף לה חותמת זמן.
מגדירים את TimepointType לערך SSML_MARK. אם השדה הזה לא מוגדר, כברירת מחדל לא מוחזרות נקודות זמן.

בדוגמה הבאה מוחזרות שתי נקודות זמן:

‫timepoint_1: מציין את השעה (בשניות) שבה המילה Mark מופיעה באודיו שנוצר.
‫timepoint_2: מציין את השעה (בשניות) שבה המילה see מופיעה באודיו שנוצר.

<speak>Hello <mark name="timepoint_1"/> Mark. Good to <mark
name="timepoint_2"/> see you.</speak>

סגנונות

הקולות הבאים יכולים לדבר בכמה סגנונות:

en-US-Neural2-F
en-US-Neural2-J

משתמשים בתג <google:style> כדי לקבוע באיזה סגנון להשתמש. משתמשים בתג רק סביב משפטים מלאים.

דוגמה:

<speak><google:style name="lively">Hello I'm so happy today!</google:style></speak>

בשדה name אפשר להזין את הערכים הבאים:

apologetic
calm
empathetic
firm
lively

שפת סימון לסינתזת דיבור (SSML) קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

נסו בעצמכם

טיפים לשימוש ב-SSML

תווים שמורים

בחירת קול

תמיכה ברכיבי SSML

<speak>

דוגמה

<break>

מאפיינים

דוגמה

<say‑as>

דוגמאות

<audio>

מאפיינים

דוגמה

<p>,<s>

דוגמה

שיטות מומלצות

<sub>

דוגמאות

<mark>

דוגמה

<prosody>

דוגמה

<emphasis>

דוגמה

<par>

דוגמה

<seq>

דוגמה

<media>

מאפיינים

מפרט הזמן

<phoneme>

סמני לחץ

תמלול רחב לעומת תמלול מצומצם

הוזלה

חלוקה להברות

מילון הגייה בהתאמה אישית

משכי זמן

<voice>

<lang>

נקודות זמן ב-SSML

סגנונות

שפת סימון לסינתזת דיבור (SSML)

`<speak>`

`<break>`

`<say‑as>`

`<audio>`

`<p>,<s>`

`<sub>`

`<mark>`

`<prosody>`

`<emphasis>`

`<par>`

`<seq>`

`<media>`

`<phoneme>`

`<voice>`

`<lang>`