Chirp 3 של Cloud TTS: קולות באיכות HD מייצגים את הדור האחרון של טכנולוגיית המרת טקסט לדיבור. הקולות האלה מבוססים על הדור האחרון של מודלים גנרטיביים, והם נשמעים מציאותיים ומעוררים הזדהות.
אפשרויות קול
יש מגוון אפשרויות של קולות, שלכל אחד מהם יש מאפיינים ייחודיים:
| שם | מגדר | הדגמה |
|---|---|---|
| Achernar | נקבה | |
| Achird | זכר | |
| Algenib | זכר | |
| Algieba | זכר | |
| Alnilam | זכר | |
| Aoede | נקבה | |
| Autonoe | נקבה | |
| Callirrhoe | נקבה | |
| כארון | זכר | |
| Despina | נקבה | |
| אנקלאדוס | זכר | |
| Erinome | נקבה | |
| Fenrir | זכר | |
| Gacrux | נקבה | |
| יאפטוס | זכר | |
| Kore | נקבה | |
| Laomedeia | נקבה | |
| Leda | נקבה | |
| Orus | זכר | |
| Pulcherrima | נקבה | |
| Puck | זכר | |
| Rasalgethi | זכר | |
| Sadachbia | זכר | |
| Sadaltager | זכר | |
| Schedar | זכר | |
| Sulafat | נקבה | |
| Umbriel | זכר | |
| Vindemiatrix | נקבה | |
| Zephyr | נקבה | |
| Zubenelgenubi | זכר |
זמינות השפות
Chirp 3: קולות באיכות HD נתמכים בשפות הבאות, והשפות פנג'אבי (הודו) וסינית (הונג קונג) זמינות בתצוגה מקדימה.
| שפה | קוד BCP-47 |
|---|---|
| ערבית (גנרית) | ar-XA |
| בנגלית (הודו) | bn-IN |
| בולגרית (בולגריה) | bg-BG |
| סינית (הונג קונג) | yue-HK |
| קרואטית (קרואטיה) | hr-HR |
| צ'כית (צ'כיה) | cs-CZ |
| דנית (דנמרק) | da-DK |
| הולנדית (בלגיה) | nl-BE |
| הולנדית (הולנד) | nl-NL |
| אנגלית (אוסטרליה) | en-AU |
| אנגלית (הודו) | en-IN |
| אנגלית (בריטניה) | en-GB |
| אנגלית (ארצות הברית) | en-US |
| אסטונית (אסטוניה) | et-EE |
| פינית (פינלנד) | fi-FI |
| צרפתית (קנדה) | fr-CA |
| צרפתית (צרפת) | fr-FR |
| גרמנית (גרמניה) | de-DE |
| יוונית (יוון) | el-GR |
| גוג'ראטית (הודו) | gu-IN |
| עברית (ישראל) | he-IL |
| הינדית (הודו) | hi-IN |
| הונגרית (הונגריה) | hu-HU |
| אינדונזית (אינדונזיה) | id-ID |
| איטלקית (איטליה) | it-IT |
| יפנית (יפן) | ja-JP |
| קאנדה (הודו) | kn-IN |
| קוריאנית (דרום קוריאה) | ko-KR |
| לטבית (לטביה) | lv-LV |
| ליטאית (ליטא) | lt-LT |
| מליאלאם (הודו) | ml-IN |
| סינית מנדרינית (סין) | cmn-CN |
| מראטהית (הודו) | mr-IN |
| נורווגית ספרותית (בוקמול) (נורווגיה) | nb-NO |
| פולנית (פולין) | pl-PL |
| פורטוגזית (ברזיל) | pt-BR |
| פנג'אבי (הודו) | pa-IN |
| רומנית (רומניה) | ro-RO |
| רוסית (רוסיה) | ru-RU |
| סרבית (באותיות קיריליות) | sr-RS |
| סלובקית (סלובקיה) | sk-SK |
| סלובנית (סלובניה) | sl-SI |
| ספרדית (ספרד) | es-ES |
| ספרדית (ארצות הברית) | es-US |
| סוואהילי (קניה) | sw-KE |
| שוודית (שוודיה) | sv-SE |
| טמילית (הודו) | ta-IN |
| טלוגו (הודו) | te-IN |
| תאית (תאילנד) | th-TH |
| טורקית (טורקיה) | tr-TR |
| אוקראינית (אוקראינה) | uk-UA |
| אורדו (הודו) | ur-IN |
| וייטנאמית (וייטנאם) | vi-VN |
זמינות אזורית
Chirp 3: קולות באיכות HD זמינים באזורים הבאים: Google Cloud
| Google Cloud אזור | מוכנות להשקה |
|---|---|
global |
GA |
us |
GA |
eu |
GA |
asia-southeast1 |
GA |
europe-west2 |
GA |
asia-northeast1 |
GA |
פורמטים נתמכים של פלט
פורמט ברירת המחדל של התשובה הוא LINEAR16, אבל יש פורמטים נתמכים אחרים, כולל:
| שיטת ה-API | פורמט |
|---|---|
streaming |
ALAW, MULAW, OGG_OPUS ו-PCM |
batch |
ALAW, MULAW, MP3, OGG_OPUS ו-PCM |
שימוש ב-Chirp 3: קולות באיכות HD
איך משתמשים ב-Chirp 3: HD voices כדי לבצע סינתזה של דיבור
ביצוע בקשה לסינתזת דיבור בסטרימינג
Python
מידע על התקנת ספריית הלקוח של Cloud TTS ושימוש בה מופיע במאמר ספריות הלקוח של Cloud TTS. מידע נוסף מופיע במאמרי העזרה של Cloud TTS Python API.
כדי לבצע אימות ב-Cloud TTS, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
ביצוע בקשה לסינתזת דיבור באינטרנט
Python
מידע על התקנת ספריית הלקוח של Cloud TTS ושימוש בה מופיע במאמר ספריות הלקוח של Cloud TTS. מידע נוסף מופיע במאמרי העזרה של Cloud TTS Python API.
כדי לבצע אימות ב-Cloud TTS, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
טיפים לכתיבת סקריפטים והנחיות
כדי ליצור אודיו מעניין וטבעי מטקסט, צריך להבין את הניואנסים של השפה המדוברת ולתרגם אותם לפורמט של תסריט. הטיפים הבאים יעזרו לכם ליצור תסריטים שנשמעים אותנטיים ומשקפים את הטון שבחרתם.
הבנת המטרה: דיבור טבעי
המטרה העיקרית היא לגרום לקול המסונתז להישמע כמה שיותר קרוב לקול אנושי טבעי. התהליך כולל:
- חיקוי של קצב דיבור טבעי: מהירות הדיבור של מישהו.
- יצירת זרימה חלקה: הקפדה על מעברים חלקים בין משפטים וביטויים.
- הוספת השהיות מציאותיות: שילוב של השהיות להדגשה ולבהירות.
- לכידת הטון של השיחה: גורמת לאודיו להישמע כמו שיחה אמיתית.
טכניקות מרכזיות לדיבור טבעי
פיסוק לקביעת הקצב והזרימה
- נקודות (.): מציינות עצירה מלאה והשהיה ארוכה יותר. כדאי להשתמש בהם כדי להפריד בין מחשבות שלמות וליצור גבולות ברורים בין משפטים.
- פסיקים (,): יוצרים הפסקות קצרות יותר בתוך משפטים. משתמשים בהן כדי להפריד בין פסקה לפסקה, בין פריטים ברשימה או כדי להוסיף הפסקות קצרות לנשימה.
- סימני שלוש נקודות (...): מייצגים הפסקה ארוכה יותר ומכוונת יותר. הן יכולות לציין מחשבות מתמשכות, היסוס או הפסקה דרמטית.
- דוגמה: "ואז... זה קרה".
- מקפים (-): אפשר להשתמש בהם כדי לציין הפסקה קצרה או שינוי פתאומי בנושא.
- דוגמה: "רציתי להגיד – אבל לא הצלחתי".
שילוב של הפסקות וגמגום
- הפסקות אסטרטגיות: משתמשים בסימני פיסוק כמו פסיקים, מקפים או שלוש נקודות כדי ליצור הפסקות במקומות שבהם דובר אנושי היה עוצר באופן טבעי כדי לקחת אוויר או להדגיש מילה.
- היסוסים (כמו 'אה' ו'הממ'): חלק מהמודלים של Cloud Text-to-Speech מטפלים בהיסוסים באופן אוטומטי, אבל חשוב להבין את התפקיד שלהם. הם מוסיפים אותנטיות וגורמים לדיבור להישמע פחות רובוטי. גם אם המודל מוסיף אותן, מודעות למיקום הטבעי שלהן בדיבור אנושי עוזרת להבין את הרצף הכולל של התסריט.
ניסויים ואיטרציות
- סינתוז מחדש: אל תחששו לבצע סינתוז מחדש של אותה הודעה עם אותו קול כמה פעמים. שינויים קלים בפיסוק, ברווחים או בבחירת המילים יכולים להשפיע באופן משמעותי על האודיו הסופי.
- האזנה ביקורתית: שימו לב לקצב, לזרימה ולטון הכללי של האודיו המסונתז. מזהים אזורים שנשמעים לא טבעיים ומשנים את התסריט בהתאם.
- וריאציות של קולות: אם המערכת מאפשרת, כדאי לנסות להשתמש בקולות שונים כדי לראות איזה קול מתאים הכי טוב לתסריט ולטון שבחרתם.
טיפים מעשיים לכתיבת סקריפטים
- הקראה: לפני הסינתזה, קוראים את התסריט בקול רם. כך תוכלו לזהות ניסוחים מסורבלים, הפסקות לא טבעיות וקטעים שצריך לשנות.
- כתיבה בסגנון שיחה: כדי שהתסריט יישמע טבעי יותר, כדאי להשתמש בקיצורים (למשל, "it's", "we're") ובשפה לא רשמית.
- התאמה להקשר: הטון והקצב של התסריט צריכים להתאים להקשר של האודיו. כשמציגים מצגת רשמית, צריך להשתמש בגישה שונה מזו שמשתמשים בה בשיחה לא רשמית.
- פיצול משפטים מורכבים: מנועי TTS מתקשים להתמודד עם משפטים ארוכים ומסובכים. כדאי לחלק אותם למשפטים קצרים יותר שקל יותר לנהל.
שיפורים לדוגמה בסקריפט
הסקריפט המקורי (רובוטי): "The product is now available. יש לנו תכונות חדשות. זה מאוד מרגש".
תסריט משופר (טבעי): "המוצר זמין עכשיו... והוספנו כמה תכונות חדשות ומעניינות. זה, טוב, זה מאוד מרגש".
התסריט המקורי (קולי): "זוהי הודעת אישור אוטומטית. ההזמנה שלך עובדה. הפרטים הבאים מתייחסים לשהייה הקרובה שלך. מספר ההזמנה הוא 12345. השם של האורח שרשום הוא Anthony Vasquez. תאריך ההגעה הוא 14 במרץ. תאריך היציאה הוא 16 במרץ. סוג החדר הוא סוויטת דלוקס. מספר האורחים הוא 1. שעת הצ'ק-אין היא 15:00. שעת הצ'ק-אאוט היא 11:00. שימו לב: בהתאם למדיניות הביטולים, חובה להודיע על ביטול 48 שעות לפני ההגעה. אם לא תודיעו לנו על כך במסגרת הזמן הזו, נחייב אתכם על שהייה של לילה אחד. השירותים הנוספים שכלולים בהזמנה הם: Wi-Fi בחינם, גישה למכון הכושר וארוחת בוקר בחינם. אם יש לך שאלות, אפשר לפנות ישירות למלון במספר 855-555-6689. תודה שבחרת לשהות במלון שלנו".
סקריפט משופר (טבעי): "שלום אנתוני וסקז! אנחנו שמחים לאשר את ההזמנה שלך אצלנו. הזמנתך לשהייה מ-14 במרץ עד 16 במרץ בסוויטת דלוקס היפה שלנו אושרה. המחיר הוא לאורח אחד. למקרה שתצטרך אותו, מספר האישור שלך הוא 12345.
רק רציתי להזכיר ששעת הצ'ק-אין היא 15:00 ושעת הצ'ק-אאוט היא 11:00.
עכשיו, חשוב לי להזכיר לך את מדיניות הביטולים שלנו… אם תצטרך לבטל, פשוט תודיע לנו על כך לפחות 48 שעות לפני ההגעה, בסדר? אחרת, נחייב אותך על שהייה של לילה אחד.
כדי להפוך את השהייה שלכם לטובה עוד יותר, תקבלו Wi-Fi בחינם, גישה למכון הכושר שלנו וארוחת בוקר טעימה בחינם בכל בוקר!
אם יש לך שאלות, אפשר להתקשר אלינו למספר 855-555-6689. נשמח לראות אותך במלון!"
הסבר על השינויים:
- הנקודות (…) יוצרות השהיה להדגשה.
- השימוש במילה 'we've' הוא קיצור של 'we have' ויוצר טון יותר קליל ושיחתי.
- "It's, well, it's very exciting" מוסיף קצת גמגום והדגשה.
- הוספת המילה "בסדר?" בסוף ההודעה מרככת את הטון.
ההנחיות האלה יעזרו לכם ליצור תסריטים להמרת טקסט לאודיו שנשמעים טבעיים, מעניינים ודומים לקול אנושי. חשוב לזכור שתרגול והתנסות הם המפתח לשליטה במיומנות הזו.
Chirp 3: תמיכה ב-HD SSML
תגי Speech Synthesis Markup Language (SSML) מאפשרים לכם לשלוט באופן שבו טקסט מומר לדיבור. באמצעות SSML, אתם יכולים לציין הגייה, פסקאות, לשלוט במבנה הכללי של טקסט הקלט ולהשפיע עליו כדי לקבל אודיו שנשמע טבעי יותר.
רכיבי SSML נתמכים
התמיכה בתגי SSML הבאים זמינה לבקשות סנכרוניות עם Chirp 3: קולות באיכות HD. המערכת תתעלם מתגים שלא מופיעים ברשימה הזו במהלך תהליך הסינתזה. שימו לב: בשלב הזה אין תמיכה בתגי SSML בבקשות סטרימינג.
-
<speak>: רכיב הבסיס של טקסט ה-SSML. -
<say-as>: מאפשר לספק רמזים לגבי אופן ההגייה של הטקסט שמופיע בתוכו. שימו לב: אין תמיכה ב-interpret-as="expletive"או ב-interpret-as="bleep". -
<p>: מייצג פסקה. -
<s>: מייצג משפט. -
<phoneme>: מספק הגייה פונטית של הטקסט שמופיע בתוכו. -
<sub>: הקראה של ערך הכינוי במקום הטקסט שכלול ברכיב. -
<break>: קובע את ההשהיה בין המילים. -
<audio>: הוספה של קובץ אודיו מוקלט מכתובת URL. -
<prosody>: התאמה אישית של גובה הצליל, קצב הדיבור ועוצמת הקול של הטקסט הכלול. -
<voice>: בקשה להשתמש בקול אחר לטקסט שמופיע בתוך התג.
דוגמה ל-SynthesizeSpeechRequest באמצעות SSML:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"ssml": "<speak>Here are <say-as interpret-as=\"characters\">SSML</say-as> samples. I can also substitute phrases, like the <sub alias=\"World Wide Web Consortium\">W3C</sub>. Hi,<phoneme alphabet=\"ipa\" ph=\"ˌmænɪˈtoʊbə\">manitoba<phoneme>! Finally, I can speak a paragraph with two sentences. <p><s>This is sentence one.</s><s>This is sentence two.</s></p></speak>",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Chirp 3: שליטה באמצעות הקול באיכות HD
תכונות השליטה הקולית מיועדות במיוחד לסינתזת קול באיכות HD. אתם יכולים לנהל את השליטה בקצב, את השליטה בהשהיה ואת ההגייה המותאמת אישית דרך Chirp 3: HD voice control options.
בקרת קצב
אפשר לשנות את המהירות של האודיו שנוצר באמצעות הפרמטר pace. הפרמטר pace מאפשר להאט או להאיץ את הדיבור, עם ערכים שנעים בין 0.25x (איטי מאוד) ל-2x (מהיר מאוד). כדי להגדיר את הקצב, משתמשים בפרמטר speaking_rate בבקשה. צריך לבחור ערך בין 0.25 ל-2.0. ערכים מתחת ל-1.0 מאטים את הדיבור, וערכים מעל 1.0 מאיצים אותו. הערך 1.0 מציין שהקצב לא מותאם.
דוגמה ל-SynthesizeSpeechRequest עם שליטה בקצב:
{
"audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"input": {
"text": "Once upon a time, there was a cute cat. He was so cute that he got lots of treats.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
דוגמה ל-StreamingSynthesizeConfig עם שליטה בקצב:
{
"streaming_audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
קטעי אודיו לדוגמה של בקרת הקצב:
| קצב דיבור | תשובה |
|---|---|
| 0.5 | |
| 1.0 | |
| 2.0 |
אמצעי בקרה להשהיה
אתם יכולים להוסיף הפסקות לדיבור שנוצר על ידי AI על ידי הטמעת תגים מיוחדים ישירות בטקסט באמצעות markup שדה להזנת קלט. חשוב לדעת שתגי השהיה יפעלו רק בשדה markup ולא בשדה text.
התגים האלה מסמנים ל-AI ליצור הפסקות, אבל האורך המדויק של ההפסקות האלה לא קבוע. ה-AI מתאים את משך הזמן על סמך ההקשר, בדומה לדיבור טבעי של בני אדם שמשתנה בהתאם לדובר, למיקום ולמבנה המשפט. תגי ההשהיה הזמינים הם [pause short], [pause long] ו-[pause]. שיטות חלופיות ליצירת הפסקות בלי להשתמש בתגי עיצוב מפורטות בהנחיות שלנו לכתיבת הנחיות.
יכול להיות שבמודל ה-AI יהיו מקרים שבהם הוא יתעלם מתגי ההשהיה, במיוחד אם הם ממוקמים במיקומים לא טבעיים בטקסט. אפשר לשלב כמה תגי השהיה כדי ליצור הפסקות ארוכות יותר, אבל שימוש מוגזם עלול לגרום לבעיות.
דוגמה ל-SynthesizeSpeechRequest עם בקרת השהיה:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"markup": "Let me take a look, [pause long] yes, I see it.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
דוגמה ל-StreamingSynthesisInput עם בקרת השהיה:
{
"markup": "Let me take a look, [pause long] yes, I see it.",
}
השהיית קטעי אודיו לדוגמה של פקדים:
| קלט של תגי עיצוב | תשובה |
|---|---|
| "Let me take a look, yes, I see it." | |
| "אני בודק את זה, [הפסקה ארוכה] כן, אני רואה את זה". |
הגייה מותאמת אישית
אתם יכולים לציין הגייה מותאמת אישית באמצעות ייצוגים פונטיים של מילים בטקסט הקלט ב-IPA או ב-X-SAMPA. חשוב להשתמש בפונמות שמתאימות לשפה כדי שההצגה תהיה מדויקת. מידע נוסף על החלפת פונמה זמין במסמכי התיעוד בנושא פונמות.
דוגמה ל-SynthesizeSpeechRequest באמצעות הגדרות הגייה מותאמות אישית:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"text": "There is a dog in the boat",
"custom_pronunciations": {
"phrase": "dog",
"phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
"pronunciation": "\"k{t",
}
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
דוגמה ל-StreamingSynthesizeConfig עם הגדרות הגייה מותאמות אישית:
{
"streaming_audio_config": {
"audio_encoding": "LINEAR16",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
"custom_pronunciations": {
"phrase": "dog",
"phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
"pronunciation": "\"k{t",
}
}
קטעי אודיו לדוגמה של הגייה בהתאמה אישית:
| הגייה מותאמת אישית הוחלה | תשובה |
|---|---|
| ללא | |
| "dog" מבוטא כ-"k{t" |
אפשר לעצב את הביטויים שהוחלפו בכל דרך, כולל שימוש בסמלים. לדוגמה, במקרה של דו-משמעות פוטנציאלית בהתאמת ביטויים על סמך הקשר (שכיח בשפות כמו סינית ויפנית) או במשפטים שבהם מילה אחת עשויה להיות מבוטאת בדרכים שונות, אפשר לעצב את הביטוי כדי להסיר את הדו-משמעות. לדוגמה, כדי למנוע החלפה לא מכוונת של מקרים אחרים של המילה read בקלט, אפשר לעצב את הביטוי "read" כ-"read1", כ-"[read]" או כ-"(read)" גם בטקסט הקלט וגם בביטוי שהוחלף.
בדוגמה הזו מוחלות הגיות מותאמות אישית על משפט שבו המילה read מבוטאת בשתי דרכים שונות:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"text": "I read1 a book, and I will now read2 it to you.",
"custom_pronunciations": {
"phrase": "read1",
"phonetic_encoding": "PHONETIC_ENCODING_IPA",
"pronunciation": "rɛd",
}
"custom_pronunciations": {
"phrase": "read2",
"phonetic_encoding": "PHONETIC_ENCODING_IPA",
"pronunciation": "riːd",
}
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
| הגייה מותאמת אישית הוחלה | תשובה |
|---|---|
| החלפת ההגדרה 'קריאה' בשתי דרכים |
בנוסף, אפשר להשתמש בהגדרות הגייה מותאמות אישית עם קלט של תגי עיצוב, וכך להשתמש גם בתגי השהיה:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"markup": "Did you [pause long] read this book?",
"custom_pronunciations": {
"phrase": "read",
"phonetic_encoding": "PHONETIC_ENCODING_IPA",
"pronunciation": "riːd",
}
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
| הגייה מותאמת אישית בשימוש | תשובה |
|---|---|
| החלפת ההגייה בתג השהיה |
השפות שבהן אפשר להשתמש בפקודות קוליות
התכונה 'שליטה בקצב הצגת המודעות' זמינה בכל האזורים.
אפשר להשתמש בלחצן ההשהיה בכל האזורים, חוץ מהאזורים הבאים: בולגריה, צ'כיה, יוון, אסטוניה, ישראל, קרואטיה, הונגריה, ליטא, לטביה, הודו, רומניה, סלובקיה, סלובניה, סרביה והונג קונג.
התכונה 'הגדרות הגייה מותאמות אישית' זמינה בכל הלוקאלים, למעט: bg-bg, bn-in, cs-cz, da-dk, el-gr, et-ee, fi-fi, gu-in, he-il, hr-hr, hu-hu, lt-lt, lv-lv, nb-no, nl-be, pa-in, ro-ro, sk-sk, sl-si, sr-rs, sv-se, sw-ke, th-th, uk-ua, ur-in, vi-vn ו-yue-hk.
שאלות נפוצות
שאלות נפוצות ותשובות:
איך שולטים בקצב ובשטף כדי לשפר את פלט הדיבור?
כדי לשפר את פלט הדיבור, אפשר להיעזר בהנחיות שלנו ליצירת הנחיות ולשפר את ההנחיה הטקסטואלית.
איך ניגשים לקולות בשפות נתמכות?
לשמות של קולות יש פורמט ספציפי, שמאפשר להשתמש בהם בשפות נתמכות על ידי ציון הקול באופן ייחודי. הפורמט הוא \<locale\>-\<model\>-\<voice\>. לדוגמה, כדי להשתמש בקול Kore לאנגלית (ארצות הברית) באמצעות מודל הקולות באיכות HD של Chirp 3, צריך לציין אותו כ-en-US-Chirp3-HD-Kore.