‫Chirp 3: קולות באיכות HD

Try Chirp 3: HD voices in Vertex AI Studio Try in Colab View notebook on GitHub

‫Chirp 3 של Cloud TTS: קולות באיכות HD מייצגים את הדור האחרון של טכנולוגיית המרת טקסט לדיבור. הקולות האלה מבוססים על הדור האחרון של מודלים גנרטיביים, והם נשמעים מציאותיים ומעוררים הזדהות.

אפשרויות קול

יש מגוון אפשרויות של קולות, שלכל אחד מהם יש מאפיינים ייחודיים:

שם מגדר הדגמה
Achernar נקבה
Achird זכר
Algenib זכר
Algieba זכר
Alnilam זכר
Aoede נקבה
Autonoe נקבה
Callirrhoe נקבה
כארון זכר
Despina נקבה
אנקלאדוס זכר
Erinome נקבה
Fenrir זכר
Gacrux נקבה
יאפטוס זכר
Kore נקבה
Laomedeia נקבה
Leda נקבה
Orus זכר
Pulcherrima נקבה
Puck זכר
Rasalgethi זכר
Sadachbia זכר
Sadaltager זכר
Schedar זכר
Sulafat נקבה
Umbriel זכר
Vindemiatrix נקבה
Zephyr נקבה
Zubenelgenubi זכר

זמינות השפות

‫Chirp 3: קולות באיכות HD נתמכים בשפות הבאות, והשפות פנג'אבי (הודו) וסינית (הונג קונג) זמינות בתצוגה מקדימה.

שפה קוד BCP-47
ערבית (גנרית) ar-XA
בנגלית (הודו) bn-IN
בולגרית (בולגריה) bg-BG
סינית (הונג קונג) yue-HK
קרואטית (קרואטיה) hr-HR
צ'כית (צ'כיה) cs-CZ
דנית (דנמרק) da-DK
הולנדית (בלגיה) nl-BE
הולנדית (הולנד) nl-NL
אנגלית (אוסטרליה) en-AU
אנגלית (הודו) en-IN
אנגלית (בריטניה) en-GB
אנגלית (ארצות הברית) en-US
אסטונית (אסטוניה) et-EE
פינית (פינלנד) fi-FI
צרפתית (קנדה) fr-CA
צרפתית (צרפת) fr-FR
גרמנית (גרמניה) de-DE
יוונית (יוון) el-GR
גוג'ראטית (הודו) gu-IN
עברית (ישראל) he-IL
הינדית (הודו) hi-IN
הונגרית (הונגריה) hu-HU
אינדונזית (אינדונזיה) id-ID
איטלקית (איטליה) it-IT
יפנית (יפן) ja-JP
קאנדה (הודו) kn-IN
קוריאנית (דרום קוריאה) ko-KR
לטבית (לטביה) lv-LV
ליטאית (ליטא) lt-LT
מליאלאם (הודו) ml-IN
סינית מנדרינית (סין) cmn-CN
מראטהית (הודו) mr-IN
נורווגית ספרותית (בוקמול) (נורווגיה) nb-NO
פולנית (פולין) pl-PL
פורטוגזית (ברזיל) pt-BR
פנג'אבי (הודו) pa-IN
רומנית (רומניה) ro-RO
רוסית (רוסיה) ru-RU
סרבית (באותיות קיריליות) sr-RS
סלובקית (סלובקיה) sk-SK
סלובנית (סלובניה) sl-SI
ספרדית (ספרד) es-ES
ספרדית (ארצות הברית) es-US
סוואהילי (קניה) sw-KE
שוודית (שוודיה) sv-SE
טמילית (הודו) ta-IN
טלוגו (הודו) te-IN
תאית (תאילנד) th-TH
טורקית (טורקיה) tr-TR
אוקראינית (אוקראינה) uk-UA
אורדו (הודו) ur-IN
וייטנאמית (וייטנאם) vi-VN

זמינות אזורית

‫Chirp 3: קולות באיכות HD זמינים באזורים הבאים: Google Cloud

Google Cloud אזור מוכנות להשקה
global GA
us GA
eu GA
asia-southeast1 GA
europe-west2 GA
asia-northeast1 GA

פורמטים נתמכים של פלט

פורמט ברירת המחדל של התשובה הוא LINEAR16, אבל יש פורמטים נתמכים אחרים, כולל:

שיטת ה-API פורמט
streaming ‫ALAW, ‏ MULAW, ‏ OGG_OPUS ו-PCM
batch ‫ALAW, ‏ MULAW, ‏ MP3, ‏ OGG_OPUS ו-PCM

שימוש ב-Chirp 3: קולות באיכות HD

איך משתמשים ב-Chirp 3: HD voices כדי לבצע סינתזה של דיבור

ביצוע בקשה לסינתזת דיבור בסטרימינג

Python

מידע על התקנת ספריית הלקוח של Cloud TTS ושימוש בה מופיע במאמר ספריות הלקוח של Cloud TTS. מידע נוסף מופיע במאמרי העזרה של Cloud TTS Python API.

כדי לבצע אימות ב-Cloud TTS, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

"""Synthesizes speech from a stream of input text."""
from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

# See https://cloud.google.com/text-to-speech/docs/voices for all voices.
streaming_config = texttospeech.StreamingSynthesizeConfig(
    voice=texttospeech.VoiceSelectionParams(
        name="en-US-Chirp3-HD-Charon",
        language_code="en-US",
    )
)

# Set the config for your stream. The first request must contain your config, and then each subsequent request must contain text.
config_request = texttospeech.StreamingSynthesizeRequest(
    streaming_config=streaming_config
)

text_iterator = [
    "Hello there. ",
    "How are you ",
    "today? It's ",
    "such nice weather outside.",
]

# Request generator. Consider using Gemini or another LLM with output streaming as a generator.
def request_generator():
    yield config_request
    for text in text_iterator:
        yield texttospeech.StreamingSynthesizeRequest(
            input=texttospeech.StreamingSynthesisInput(text=text)
        )

streaming_responses = client.streaming_synthesize(request_generator())

for response in streaming_responses:
    print(f"Audio content size in bytes is: {len(response.audio_content)}")

ביצוע בקשה לסינתזת דיבור באינטרנט

Python

מידע על התקנת ספריית הלקוח של Cloud TTS ושימוש בה מופיע במאמר ספריות הלקוח של Cloud TTS. מידע נוסף מופיע במאמרי העזרה של Cloud TTS Python API.

כדי לבצע אימות ב-Cloud TTS, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.

def synthesize_text():
    """Synthesizes speech from the input string of text."""
    from google.cloud import texttospeech

    text = "Hello there."
    client = texttospeech.TextToSpeechClient()

    input_text = texttospeech.SynthesisInput(text=text)

    # Note: the voice can also be specified by name.
    # Names of voices can be retrieved with client.list_voices().
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="en-US-Chirp3-HD-Charon",
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    response = client.synthesize_speech(
        input=input_text,
        voice=voice,
        audio_config=audio_config,
    )

    # The response's audio_content is binary.
    with open("output.mp3", "wb") as out:
        out.write(response.audio_content)
        print('Audio content written to file "output.mp3"')

טיפים לכתיבת סקריפטים והנחיות

כדי ליצור אודיו מעניין וטבעי מטקסט, צריך להבין את הניואנסים של השפה המדוברת ולתרגם אותם לפורמט של תסריט. הטיפים הבאים יעזרו לכם ליצור תסריטים שנשמעים אותנטיים ומשקפים את הטון שבחרתם.

הבנת המטרה: דיבור טבעי

המטרה העיקרית היא לגרום לקול המסונתז להישמע כמה שיותר קרוב לקול אנושי טבעי. התהליך כולל:

  • חיקוי של קצב דיבור טבעי: מהירות הדיבור של מישהו.
  • יצירת זרימה חלקה: הקפדה על מעברים חלקים בין משפטים וביטויים.
  • הוספת השהיות מציאותיות: שילוב של השהיות להדגשה ולבהירות.
  • לכידת הטון של השיחה: גורמת לאודיו להישמע כמו שיחה אמיתית.

טכניקות מרכזיות לדיבור טבעי

  • פיסוק לקביעת הקצב והזרימה

    • נקודות (.): מציינות עצירה מלאה והשהיה ארוכה יותר. כדאי להשתמש בהם כדי להפריד בין מחשבות שלמות וליצור גבולות ברורים בין משפטים.
    • פסיקים (,): יוצרים הפסקות קצרות יותר בתוך משפטים. משתמשים בהן כדי להפריד בין פסקה לפסקה, בין פריטים ברשימה או כדי להוסיף הפסקות קצרות לנשימה.
    • סימני שלוש נקודות (...): מייצגים הפסקה ארוכה יותר ומכוונת יותר. הן יכולות לציין מחשבות מתמשכות, היסוס או הפסקה דרמטית.
      • דוגמה: "ואז... זה קרה".
    • מקפים (-): אפשר להשתמש בהם כדי לציין הפסקה קצרה או שינוי פתאומי בנושא.
      • דוגמה: "רציתי להגיד – אבל לא הצלחתי".
  • שילוב של הפסקות וגמגום

    • הפסקות אסטרטגיות: משתמשים בסימני פיסוק כמו פסיקים, מקפים או שלוש נקודות כדי ליצור הפסקות במקומות שבהם דובר אנושי היה עוצר באופן טבעי כדי לקחת אוויר או להדגיש מילה.
    • היסוסים (כמו 'אה' ו'הממ'): חלק מהמודלים של Cloud Text-to-Speech מטפלים בהיסוסים באופן אוטומטי, אבל חשוב להבין את התפקיד שלהם. הם מוסיפים אותנטיות וגורמים לדיבור להישמע פחות רובוטי. גם אם המודל מוסיף אותן, מודעות למיקום הטבעי שלהן בדיבור אנושי עוזרת להבין את הרצף הכולל של התסריט.
  • ניסויים ואיטרציות

    • סינתוז מחדש: אל תחששו לבצע סינתוז מחדש של אותה הודעה עם אותו קול כמה פעמים. שינויים קלים בפיסוק, ברווחים או בבחירת המילים יכולים להשפיע באופן משמעותי על האודיו הסופי.
    • האזנה ביקורתית: שימו לב לקצב, לזרימה ולטון הכללי של האודיו המסונתז. מזהים אזורים שנשמעים לא טבעיים ומשנים את התסריט בהתאם.
    • וריאציות של קולות: אם המערכת מאפשרת, כדאי לנסות להשתמש בקולות שונים כדי לראות איזה קול מתאים הכי טוב לתסריט ולטון שבחרתם.
  • טיפים מעשיים לכתיבת סקריפטים

    • הקראה: לפני הסינתזה, קוראים את התסריט בקול רם. כך תוכלו לזהות ניסוחים מסורבלים, הפסקות לא טבעיות וקטעים שצריך לשנות.
    • כתיבה בסגנון שיחה: כדי שהתסריט יישמע טבעי יותר, כדאי להשתמש בקיצורים (למשל, "it's",‏ "we're") ובשפה לא רשמית.
    • התאמה להקשר: הטון והקצב של התסריט צריכים להתאים להקשר של האודיו. כשמציגים מצגת רשמית, צריך להשתמש בגישה שונה מזו שמשתמשים בה בשיחה לא רשמית.
    • פיצול משפטים מורכבים: מנועי TTS מתקשים להתמודד עם משפטים ארוכים ומסובכים. כדאי לחלק אותם למשפטים קצרים יותר שקל יותר לנהל.
  • שיפורים לדוגמה בסקריפט

    • הסקריפט המקורי (רובוטי): "The product is now available. יש לנו תכונות חדשות. זה מאוד מרגש".

    • תסריט משופר (טבעי): "המוצר זמין עכשיו... והוספנו כמה תכונות חדשות ומעניינות. זה, טוב, זה מאוד מרגש".

    • התסריט המקורי (קולי): "זוהי הודעת אישור אוטומטית. ההזמנה שלך עובדה. הפרטים הבאים מתייחסים לשהייה הקרובה שלך. מספר ההזמנה הוא 12345. השם של האורח שרשום הוא Anthony Vasquez. תאריך ההגעה הוא 14 במרץ. תאריך היציאה הוא 16 במרץ. סוג החדר הוא סוויטת דלוקס. מספר האורחים הוא 1. שעת הצ'ק-אין היא 15:00. שעת הצ'ק-אאוט היא 11:00. שימו לב: בהתאם למדיניות הביטולים, חובה להודיע על ביטול 48 שעות לפני ההגעה. אם לא תודיעו לנו על כך במסגרת הזמן הזו, נחייב אתכם על שהייה של לילה אחד. השירותים הנוספים שכלולים בהזמנה הם: Wi-Fi בחינם, גישה למכון הכושר וארוחת בוקר בחינם. אם יש לך שאלות, אפשר לפנות ישירות למלון במספר 855-555-6689. תודה שבחרת לשהות במלון שלנו".

    • סקריפט משופר (טבעי): "שלום אנתוני וסקז! אנחנו שמחים לאשר את ההזמנה שלך אצלנו. הזמנתך לשהייה מ-14 במרץ עד 16 במרץ בסוויטת דלוקס היפה שלנו אושרה. המחיר הוא לאורח אחד. למקרה שתצטרך אותו, מספר האישור שלך הוא 12345.

      רק רציתי להזכיר ששעת הצ'ק-אין היא 15:00 ושעת הצ'ק-אאוט היא 11:00.

      עכשיו, חשוב לי להזכיר לך את מדיניות הביטולים שלנו… אם תצטרך לבטל, פשוט תודיע לנו על כך לפחות 48 שעות לפני ההגעה, בסדר? אחרת, נחייב אותך על שהייה של לילה אחד.

      כדי להפוך את השהייה שלכם לטובה עוד יותר, תקבלו Wi-Fi בחינם, גישה למכון הכושר שלנו וארוחת בוקר טעימה בחינם בכל בוקר!

      אם יש לך שאלות, אפשר להתקשר אלינו למספר 855-555-6689. נשמח לראות אותך במלון!"

    • הסבר על השינויים:

      • הנקודות (…‎) יוצרות השהיה להדגשה.
      • השימוש במילה 'we've' הוא קיצור של 'we have' ויוצר טון יותר קליל ושיחתי.
      • "It's, well, it's very exciting" מוסיף קצת גמגום והדגשה.
      • הוספת המילה "בסדר?" בסוף ההודעה מרככת את הטון.

    ההנחיות האלה יעזרו לכם ליצור תסריטים להמרת טקסט לאודיו שנשמעים טבעיים, מעניינים ודומים לקול אנושי. חשוב לזכור שתרגול והתנסות הם המפתח לשליטה במיומנות הזו.

‫Chirp 3: תמיכה ב-HD SSML

תגי Speech Synthesis Markup Language (SSML) מאפשרים לכם לשלוט באופן שבו טקסט מומר לדיבור. באמצעות SSML, אתם יכולים לציין הגייה, פסקאות, לשלוט במבנה הכללי של טקסט הקלט ולהשפיע עליו כדי לקבל אודיו שנשמע טבעי יותר.

רכיבי SSML נתמכים

התמיכה בתגי SSML הבאים זמינה לבקשות סנכרוניות עם Chirp 3: קולות באיכות HD. המערכת תתעלם מתגים שלא מופיעים ברשימה הזו במהלך תהליך הסינתזה. שימו לב: בשלב הזה אין תמיכה בתגי SSML בבקשות סטרימינג.

  • <speak>: רכיב הבסיס של טקסט ה-SSML.
  • <say-as>: מאפשר לספק רמזים לגבי אופן ההגייה של הטקסט שמופיע בתוכו. שימו לב: אין תמיכה ב-interpret-as="expletive" או ב-interpret-as="bleep".
  • <p>: מייצג פסקה.
  • <s>: מייצג משפט.
  • <phoneme>: מספק הגייה פונטית של הטקסט שמופיע בתוכו.
  • <sub>: הקראה של ערך הכינוי במקום הטקסט שכלול ברכיב.
  • <break>: קובע את ההשהיה בין המילים.
  • <audio>: הוספה של קובץ אודיו מוקלט מכתובת URL.
  • <prosody>: התאמה אישית של גובה הצליל, קצב הדיבור ועוצמת הקול של הטקסט הכלול.
  • <voice>: בקשה להשתמש בקול אחר לטקסט שמופיע בתוך התג.

דוגמה ל-SynthesizeSpeechRequest באמצעות SSML:

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "ssml": "<speak>Here are <say-as interpret-as=\"characters\">SSML</say-as> samples. I can also substitute phrases, like the <sub alias=\"World Wide Web Consortium\">W3C</sub>. Hi,<phoneme alphabet=\"ipa\" ph=\"ˌmænɪˈtoʊbə\">manitoba<phoneme>! Finally, I can speak a paragraph with two sentences. <p><s>This is sentence one.</s><s>This is sentence two.</s></p></speak>",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

‫Chirp 3: שליטה באמצעות הקול באיכות HD

תכונות השליטה הקולית מיועדות במיוחד לסינתזת קול באיכות HD. אתם יכולים לנהל את השליטה בקצב, את השליטה בהשהיה ואת ההגייה המותאמת אישית דרך Chirp 3: HD voice control options.

בקרת קצב

אפשר לשנות את המהירות של האודיו שנוצר באמצעות הפרמטר pace. הפרמטר pace מאפשר להאט או להאיץ את הדיבור, עם ערכים שנעים בין 0.25x (איטי מאוד) ל-2x (מהיר מאוד). כדי להגדיר את הקצב, משתמשים בפרמטר speaking_rate בבקשה. צריך לבחור ערך בין 0.25 ל-2.0. ערכים מתחת ל-1.0 מאטים את הדיבור, וערכים מעל 1.0 מאיצים אותו. הערך 1.0 מציין שהקצב לא מותאם.

דוגמה ל-SynthesizeSpeechRequest עם שליטה בקצב:

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
    "speaking_rate": 2.0,
  },
  "input": {
    "text": "Once upon a time, there was a cute cat. He was so cute that he got lots of treats.",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

דוגמה ל-StreamingSynthesizeConfig עם שליטה בקצב:

{
  "streaming_audio_config": {
    "audio_encoding": "LINEAR16",
    "speaking_rate": 2.0,
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

קטעי אודיו לדוגמה של בקרת הקצב:

קצב דיבור תשובה
‫0.5
1.0
2.0

אמצעי בקרה להשהיה

אתם יכולים להוסיף הפסקות לדיבור שנוצר על ידי AI על ידי הטמעת תגים מיוחדים ישירות בטקסט באמצעות markup שדה להזנת קלט. חשוב לדעת שתגי השהיה יפעלו רק בשדה markup ולא בשדה text.

התגים האלה מסמנים ל-AI ליצור הפסקות, אבל האורך המדויק של ההפסקות האלה לא קבוע. ה-AI מתאים את משך הזמן על סמך ההקשר, בדומה לדיבור טבעי של בני אדם שמשתנה בהתאם לדובר, למיקום ולמבנה המשפט. תגי ההשהיה הזמינים הם [pause short],‏ [pause long] ו-[pause]. שיטות חלופיות ליצירת הפסקות בלי להשתמש בתגי עיצוב מפורטות בהנחיות שלנו לכתיבת הנחיות.

יכול להיות שבמודל ה-AI יהיו מקרים שבהם הוא יתעלם מתגי ההשהיה, במיוחד אם הם ממוקמים במיקומים לא טבעיים בטקסט. אפשר לשלב כמה תגי השהיה כדי ליצור הפסקות ארוכות יותר, אבל שימוש מוגזם עלול לגרום לבעיות.

דוגמה ל-SynthesizeSpeechRequest עם בקרת השהיה:

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "markup": "Let me take a look, [pause long] yes, I see it.",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

דוגמה ל-StreamingSynthesisInput עם בקרת השהיה:

{
  "markup": "Let me take a look, [pause long] yes, I see it.",
}

השהיית קטעי אודיו לדוגמה של פקדים:

קלט של תגי עיצוב תשובה
"Let me take a look, yes, I see it."
"אני בודק את זה, [הפסקה ארוכה] כן, אני רואה את זה".

הגייה מותאמת אישית

אתם יכולים לציין הגייה מותאמת אישית באמצעות ייצוגים פונטיים של מילים בטקסט הקלט ב-IPA או ב-X-SAMPA. חשוב להשתמש בפונמות שמתאימות לשפה כדי שההצגה תהיה מדויקת. מידע נוסף על החלפת פונמה זמין במסמכי התיעוד בנושא פונמות.

דוגמה ל-SynthesizeSpeechRequest באמצעות הגדרות הגייה מותאמות אישית:

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "text": "There is a dog in the boat",
    "custom_pronunciations": {
      "phrase": "dog",
      "phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
      "pronunciation": "\"k{t",
    }
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}

דוגמה ל-StreamingSynthesizeConfig עם הגדרות הגייה מותאמות אישית:

{
  "streaming_audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
  "custom_pronunciations": {
    "phrase": "dog",
    "phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
    "pronunciation": "\"k{t",
  }
}

קטעי אודיו לדוגמה של הגייה בהתאמה אישית:

הגייה מותאמת אישית הוחלה תשובה
ללא
‫"dog" מבוטא כ-"k{t"

אפשר לעצב את הביטויים שהוחלפו בכל דרך, כולל שימוש בסמלים. לדוגמה, במקרה של דו-משמעות פוטנציאלית בהתאמת ביטויים על סמך הקשר (שכיח בשפות כמו סינית ויפנית) או במשפטים שבהם מילה אחת עשויה להיות מבוטאת בדרכים שונות, אפשר לעצב את הביטוי כדי להסיר את הדו-משמעות. לדוגמה, כדי למנוע החלפה לא מכוונת של מקרים אחרים של המילה read בקלט, אפשר לעצב את הביטוי "read" כ-"read1", כ-"[read]" או כ-"(read)" גם בטקסט הקלט וגם בביטוי שהוחלף.

בדוגמה הזו מוחלות הגיות מותאמות אישית על משפט שבו המילה read מבוטאת בשתי דרכים שונות:

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "text": "I read1 a book, and I will now read2 it to you.",
    "custom_pronunciations": {
      "phrase": "read1",
      "phonetic_encoding": "PHONETIC_ENCODING_IPA",
      "pronunciation": "rɛd",
    }
    "custom_pronunciations": {
      "phrase": "read2",
      "phonetic_encoding": "PHONETIC_ENCODING_IPA",
      "pronunciation": "riːd",
    }
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}
הגייה מותאמת אישית הוחלה תשובה
החלפת ההגדרה 'קריאה' בשתי דרכים

בנוסף, אפשר להשתמש בהגדרות הגייה מותאמות אישית עם קלט של תגי עיצוב, וכך להשתמש גם בתגי השהיה:

{
  "audio_config": {
    "audio_encoding": "LINEAR16",
  },
  "input": {
    "markup": "Did you [pause long] read this book?",
    "custom_pronunciations": {
      "phrase": "read",
      "phonetic_encoding": "PHONETIC_ENCODING_IPA",
      "pronunciation": "riːd",
    }
  },
  "voice": {
    "language_code": "en-US",
    "name": "en-us-Chirp3-HD-Leda",
  }
}
הגייה מותאמת אישית בשימוש תשובה
החלפת ההגייה בתג השהיה

השפות שבהן אפשר להשתמש בפקודות קוליות

  • התכונה 'שליטה בקצב הצגת המודעות' זמינה בכל האזורים.

  • אפשר להשתמש בלחצן ההשהיה בכל האזורים, חוץ מהאזורים הבאים: בולגריה, צ'כיה, יוון, אסטוניה, ישראל, קרואטיה, הונגריה, ליטא, לטביה, הודו, רומניה, סלובקיה, סלובניה, סרביה והונג קונג.

  • התכונה 'הגדרות הגייה מותאמות אישית' זמינה בכל הלוקאלים, למעט: bg-bg, ‏ bn-in, ‏ cs-cz, ‏ da-dk, ‏ el-gr, ‏ et-ee, ‏ fi-fi, ‏ gu-in, ‏ he-il, ‏ hr-hr, ‏ hu-hu, ‏ lt-lt, ‏ lv-lv, ‏ nb-no, ‏ nl-be, ‏ pa-in, ‏ ro-ro, ‏ sk-sk, ‏ sl-si, ‏ sr-rs, ‏ sv-se, ‏ sw-ke, ‏ th-th, ‏ uk-ua, ‏ ur-in, ‏ vi-vn ו-yue-hk.

שאלות נפוצות

שאלות נפוצות ותשובות:

איך שולטים בקצב ובשטף כדי לשפר את פלט הדיבור?

כדי לשפר את פלט הדיבור, אפשר להיעזר בהנחיות שלנו ליצירת הנחיות ולשפר את ההנחיה הטקסטואלית.

איך ניגשים לקולות בשפות נתמכות?

לשמות של קולות יש פורמט ספציפי, שמאפשר להשתמש בהם בשפות נתמכות על ידי ציון הקול באופן ייחודי. הפורמט הוא \<locale\>-\<model\>-\<voice\>. לדוגמה, כדי להשתמש בקול Kore לאנגלית (ארצות הברית) באמצעות מודל הקולות באיכות HD של Chirp 3, צריך לציין אותו כ-en-US-Chirp3-HD-Kore.