Gemini-TTS è l'ultima evoluzione della nostra tecnologia Text-to-Speech, che va oltre il parlato naturale e fornisce un controllo granulare sull'audio generato utilizzando prompt basati su testo. Con Gemini-TTS, puoi sintetizzare la voce di una singola persona o di più relatori, da brevi frasi a narrazioni complete, definendo con precisione stile, accento, ritmo, tono e persino espressione emotiva, il tutto gestibile tramite prompt in linguaggio naturale.
Modelli disponibili
Gemini-TTS include i seguenti modelli:
Gemini 2.5 Flash TTS
| ID modello | gemini-2.5-flash-tts |
|---|---|
| Ottimizzato per | Generazione di audio Text-to-Speech a bassa latenza, controllabile, con uno o più relatori per applicazioni quotidiane economiche |
| Modalità di input e output |
|
| Supporto del numero di relatori | Singolo, più relatori |
| Formati audio di output supportati* | LINEAR16 (predefinito), ALAW, MULAW, MP3, OGG_OPUS, PCM |
| Supporto regionale | global |
| Opzioni vocali | Consulta Opzioni vocali |
| Lingue disponibili | Consulta Lingue disponibili |
| Esempio |
model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary.
Check our website or your local store for complete
details and restrictions."
speaker: "Kore"
|
Gemini 2.5 Pro TTS
| ID modello | gemini-2.5-pro-tts |
|---|---|
| Ottimizzato per | Controllo elevato per workflow strutturati come generazione di podcast, audiolibri, assistenza clienti e altro ancora |
| Modalità di input e output |
|
| Supporto del numero di relatori | Singolo, più relatori |
| Formati audio di output supportati* | LINEAR16 (predefinito), ALAW, MULAW, MP3, OGG_OPUS, PCM |
| Supporto regionale | global |
| Opzioni vocali | Consulta Opzioni vocali |
| Lingue disponibili | Consulta Lingue disponibili |
| Esempio |
model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend.
Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirrhoe"
|
* Solo batch. streaming non è supportato.
Controlli aggiuntivi
Ecco una serie di funzionalità e controlli aggiuntivi:
Conversazione naturale: le interazioni vocali di qualità straordinaria, con espressività e schemi ritmici più appropriati, hanno una latenza molto bassa, il che rende più fluida la conversazione.
Controllo dello stile: utilizza dei prompt in linguaggio naturale per adattare la conversazione in modo da adottare accenti specifici e produrre un'ampia gamma di toni ed espressioni, inclusi i sussurri.
Prestazioni dinamiche: questi modelli possono generare discorsi molto realistici dal testo per leggere in modo espressivo poesie, notiziari e narrazioni coinvolgenti. Possono anche esprimere emozioni specifiche e usare accenti locali, se necessario.
Controllo avanzato del ritmo e della pronuncia: il controllo della velocità del parlato contribuisce a garantire una maggiore accuratezza nella pronuncia, incluse parole specifiche.
Per informazioni su come utilizzare queste voci nella tua applicazione, consulta Utilizza Gemini-TTS.
Opzioni vocali
Gemini-TTS offre un'ampia gamma di opzioni vocali simili a quelle di Chirp 3: voci in HD, ciascuna con caratteristiche distinte:
| Nome | Genere | Demo |
|---|---|---|
| Achernar | Donna | |
| Achird | Uomo | |
| Algenib | Uomo | |
| Algieba | Uomo | |
| Alnilam | Uomo | |
| Aoede | Donna | |
| Autonoe | Donna | |
| Callirrhoe | Donna | |
| Charon | Uomo | |
| Despina | Donna | |
| Enceladus | Uomo | |
| Erinome | Donna | |
| Fenrir | Uomo | |
| Gacrux | Donna | |
| Iapetus | Uomo | |
| Kore | Donna | |
| Laomedeia | Donna | |
| Leda | Donna | |
| Orus | Uomo | |
| Pulcherrima | Donna | |
| Puck | Uomo | |
| Rasalgethi | Uomo | |
| Sadachbia | Uomo | |
| Sadaltager | Uomo | |
| Schedar | Uomo | |
| Sulafat | Donna | |
| Umbriel | Uomo | |
| Vindemiatrix | Donna | |
| Zephyr | Donna | |
| Zubenelgenubi | Uomo |
Lingue disponibili
Gemini-TTS supporta le seguenti lingue:
| Lingua | Codice BCP-47 | Stato del lancio |
|---|---|---|
| Arabo (Egitto) | ar-EG | GA |
| Olandese (Paesi Bassi) | nl-NL | GA |
| Inglese (India) | en-IN | GA |
| Inglese (Stati Uniti) | en-US | GA |
| Francese (Francia) | fr-FR | GA |
| Tedesco (Germania) | de-DE | GA |
| Hindi (India) | hi-IN | GA |
| Indonesiano (Indonesia) | id-ID | GA |
| Italiano (Italia) | it-IT | GA |
| Giapponese (Giappone) | ja-JP | GA |
| Coreano (Corea del Sud) | ko-KR | GA |
| Marathi (India) | mr-IN | GA |
| Polacco (Polonia) | pl-PL | GA |
| Portoghese (Brasile) | pt-BR | GA |
| Rumeno (Romania) | ro-RO | GA |
| Russo (Russia) | ru-RU | GA |
| Spagnolo (Spagna) | es-ES | GA |
| Tamil (India) | ta-IN | GA |
| Telugu (India) | te-IN | GA |
| Thailandese (Thailandia) | th-TH | GA |
| Turco (Turchia) | tr-TR | GA |
| Ucraino (Ucraina) | uk-UA | GA |
| Vietnamita (Vietnam) | vi-VN | GA |
| Afrikaans (Sudafrica) | af-ZA | Anteprima |
| Albanese (Albania) | sq-AL | Anteprima |
| Amarico (Etiopia) | am-ET | Anteprima |
| Arabo (mondo) | ar-001 | Anteprima |
| Armeno (Armenia) | hy-AM | Anteprima |
| Azero (Azerbaigian) | az-AZ | Anteprima |
| Bengalese (Bangladesh) | bn-BD | Anteprima |
| Basco (Spagna) | eu-ES | Anteprima |
| Bielorusso (Bielorussia) | be-BY | Anteprima |
| Bulgaro (Bulgaria) | bg-BG | Anteprima |
| Birmano (Myanmar) | my-MM | Anteprima |
| Catalano (Spagna) | ca-ES | Anteprima |
| Cebuano (Filippine) | ceb-PH | Anteprima |
| Cinese, mandarino (Cina) | cmn-CN | Anteprima |
| Cinese, mandarino (Taiwan) | cmn-tw | Anteprima |
| Croato (Croazia) | hr-HR | Anteprima |
| Ceco (Repubblica Ceca) | cs-CZ | Anteprima |
| Danese (Danimarca) | da-DK | Anteprima |
| Inglese (Australia) | en-AU | Anteprima |
| Inglese (Regno Unito) | en-GB | Anteprima |
| Estone (Estonia) | et-EE | Anteprima |
| Filippino (Filippine) | fil-PH | Anteprima |
| Finlandese (Finlandia) | fi-FI | Anteprima |
| Francese (Canada) | fr-CA | Anteprima |
| Galiziano (Spagna) | gl-ES | Anteprima |
| Georgiano (Georgia) | ka-GE | Anteprima |
| Greco (Grecia) | el-GR | Anteprima |
| Gujarati (India) | gu-IN | Anteprima |
| Creolo haitiano (Haiti) | ht-HT | Anteprima |
| Ebraico (Israele) | he-IL | Anteprima |
| Ungherese (Ungheria) | hu-HU | Anteprima |
| Islandese (Islanda) | is-IS | Anteprima |
| Giavanese (Java) | jv-JV | Anteprima |
| Kannada (India) | kn-IN | Anteprima |
| Konkani (India) | kok-IN | Anteprima |
| Lao (Laos) | lo-LA | Anteprima |
| Latino (Città del Vaticano) | la-VA | Anteprima |
| Lettone (Lettonia) | lv-LV | Anteprima |
| Lituano (Lituania) | lt-LT | Anteprima |
| Lussemburghese (Lussemburgo) | lb-LU | Anteprima |
| Macedone (Macedonia del Nord) | mk-MK | Anteprima |
| Maithili (India) | mai-IN | Anteprima |
| Malgascio (Madagascar) | mg-MG | Anteprima |
| Malese (Malaysia) | ms-MY | Anteprima |
| Malayalam (India) | ml-IN | Anteprima |
| Mongolo (Mongolia) | mn-MN | Anteprima |
| Nepalese (Nepal) | ne-NP | Anteprima |
| Norvegese, bokmål (Norvegia) | nb-NO | Anteprima |
| Norvegese, nynorsk (Norvegia) | nn-NO | Anteprima |
| Odia (India) | or-IN | Anteprima |
| Pashto (Afghanistan) | ps-AF | Anteprima |
| Persiano (Iran) | fa-IR | Anteprima |
| Portoghese (Portogallo) | pt-PT | Anteprima |
| Punjabi (India) | pa-IN | Anteprima |
| Serbo (Serbia) | sr-RS | Anteprima |
| Sindhi (India) | sd-IN | Anteprima |
| Singalese (Sri Lanka) | si-LK | Anteprima |
| Slovacco (Slovacchia) | sk-SK | Anteprima |
| Sloveno (Slovenia) | sl-SI | Anteprima |
| Spagnolo (America Latina) | es-419 | Anteprima |
| Spagnolo (Messico) | es-MX | Anteprima |
| Swahili (Kenya) | sw-KE | Anteprima |
| Svedese (Svezia) | sv-SE | Anteprima |
| Urdu (Pakistan) | ur-PK | Anteprima |
Utilizza Gemini-TTS
Scopri come utilizzare i modelli Gemini-TTS per sintetizzare la voce di una o più persone.
Prima di iniziare
Prima di poter iniziare a utilizzare Text-to-Speech, devi attivare l'API nella consoleGoogle Cloud . Segui questi passaggi:
- Attiva Text-to-Speech in un progetto.
- Assicurati che la fatturazione sia abilitata per Text-to-Speech.
- Configura l'autenticazione per l'ambiente di sviluppo.
Configura il progetto Google Cloud
Vai alla pagina del selettore dei progetti
Puoi scegliere un progetto esistente o crearne uno nuovo. Per maggiori dettagli sulla creazione di un progetto, consulta la documentazione diGoogle Cloud .
Se crei un nuovo progetto, viene visualizzato un messaggio che ti informa di collegare un account di fatturazione. Se utilizzi un progetto preesistente, assicurati di attivare la fatturazione.
Scopri come verificare che la fatturazione sia abilitata per il tuo progetto
Dopo aver selezionato un progetto e averlo collegato a un account di fatturazione, puoi abilitare l'API Text-to-Speech. Vai alla barra Cerca prodotti e risorse nella parte superiore della pagina e digita "speech". Seleziona l'API Cloud Text-to-Speech dall'elenco dei risultati.
Per provare Text-to-Speech senza collegarlo al tuo progetto, scegli l'opzione Prova questa API. Per abilitare l'API Text-to-Speech in modo da utilizzarla nel progetto, fai clic su Abilita.
Configura l'autenticazione per l'ambiente di sviluppo. Per le istruzioni, consulta Configura l'autenticazione per Text-to-Speech.
Esegui la sintesi sincrona di un singolo relatore
Python
# google-cloud-texttospeech minimum version 2.29.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
"""Synthesizes speech from the input text and saves it to an MP3 file.
Args:
prompt: Styling instructions on how to synthesize the content in
the text field.
text: The text to synthesize.
output_filepath: The path to save the generated audio file.
Defaults to "output.mp3".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
# Select the voice you want to use.
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
name="Charon", # Example voice, adjust as needed
model_name="gemini-2.5-pro-tts"
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.MP3
)
# Perform the text-to-speech request on the text input with the selected
# voice parameters and audio file type.
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
# The response's audio_content is binary.
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following in a curious way",
"text": "OK, so... tell me about this [uhm] AI thing."
},
"voice": {
"languageCode": "en-us",
"name": "Kore",
"model_name": "gemini-2.5-flash-tts"
},
"audioConfig": {
"audioEncoding": "LINEAR16"
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Esegui la sintesi sincrona di più relatori con input di testo in formato libero
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_freeform(
prompt: str,
text: str,
output_filepath: str = "output_non_turn_based.wav",
):
"""Synthesizes speech from non-turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
text: The text to synthesize, containing speaker aliases to indicate
different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
output_filepath: The path to save the generated audio file. Defaults to
"output_non_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Esegui la sintesi sincrona di più relatori con input di testo strutturato
La funzionalità di più relatori con input di testo strutturato consente la verbalizzazione intelligente del testo in modo simile a quello umano. Ad esempio, questo tipo di input è utile per indirizzi e date. L'input di testo in formato libero fa sì che il testo venga pronunciato esattamente come è stato scritto.
Python
# google-cloud-texttospeech minimum version 2.31.0 is required.
import os
from google.cloud import texttospeech
PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")
def synthesize_multispeaker_structured(
prompt: str,
turns: list[texttospeech.MultiSpeakerMarkup.Turn],
output_filepath: str = "output_turn_based.wav",
):
"""Synthesizes speech from turn-based input and saves it to a WAV file.
Args:
prompt: Styling instructions on how to synthesize the content in the
text field.
turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
the dialogue turns.
output_filepath: The path to save the generated audio file. Defaults to
"output_turn_based.wav".
"""
client = texttospeech.TextToSpeechClient()
synthesis_input = texttospeech.SynthesisInput(
multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
prompt=prompt,
)
multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
speaker_voice_configs=[
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker1",
speaker_id="Kore",
),
texttospeech.MultispeakerPrebuiltVoice(
speaker_alias="Speaker2",
speaker_id="Charon",
),
]
)
voice = texttospeech.VoiceSelectionParams(
language_code="en-US",
model_name="gemini-2.5-pro-tts",
multi_speaker_voice_config=multi_speaker_voice_config,
)
audio_config = texttospeech.AudioConfig(
audio_encoding=texttospeech.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
)
response = client.synthesize_speech(
input=synthesis_input, voice=voice, audio_config=audio_config
)
with open(output_filepath, "wb") as out:
out.write(response.audio_content)
print(f"Audio content written to file: {output_filepath}")
CURL
# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "x-goog-user-project: $PROJECT_ID" \
-H "Content-Type: application/json" \
-d '{
"input": {
"prompt": "Say the following as a conversation between friends.",
"multiSpeakerMarkup": {
"turns": [
{
"speaker": "Sam",
"text": "Hi Bob, how are you?"
},
{
"speaker": "Bob",
"text": "I am doing well, and you?"
}
]
}
},
"voice": {
"languageCode": "en-us",
"modelName": "gemini-2.5-flash-tts",
"multiSpeakerVoiceConfig": {
"speakerVoiceConfigs": [
{
"speakerAlias": "Sam",
"speakerId": "Kore"
},
{
"speakerAlias": "Bob",
"speakerId": "Charon"
}
]
}
},
"audioConfig": {
"audioEncoding": "LINEAR16",
"sampleRateHertz": 24000
}
}' \
"https://texttospeech.googleapis.com/v1/text:synthesize" \
| jq -r '.audioContent' | base64 -d | ffplay - -autoexit
Esegui la sintesi vocale in Media Studio
Puoi utilizzare Media Studio nella console Google Google Cloud per sperimentare i modelli di sintesi vocale. Fornisce un'interfaccia utente per generare rapidamente l'audio, ascoltare quello sintetizzato e sperimentare diversi parametri e istruzioni di stile.
Nella console Google Google Cloud , vai alla pagina Vertex AI Studio > Media Studio.
Seleziona Speech dal menu a discesa dei contenuti multimediali.
Nel campo di testo, inserisci il testo che vuoi sintetizzare in parlato.
Nel riquadro Impostazioni, configura le seguenti impostazioni:
- Modello: seleziona il modello Text-to-Speech (TTS) da utilizzare, ad esempio
Gemini 2.5 Pro TTS. Per ulteriori informazioni sui modelli disponibili, consulta Modelli Text-to-Speech. - Istruzioni di stile: (facoltativo) inserisci un prompt di testo che descriva lo stile, il tono e la resa emotiva della voce selezionata. In questo modo, puoi ottimizzare le prestazioni del modello, andando oltre la narrazione predefinita. Ad esempio: "Usa una narrazione dal tono calmo e professionale per un documentario".
- Lingua: seleziona la lingua e la regione del testo di input. Il modello genera il parlato nella lingua e nell'accento selezionati. Ad esempio, Inglese (Stati Uniti).
- Voce: scegli una voce predefinita per la narrazione. L'elenco contiene le voci disponibili per il modello e la lingua selezionati, ad esempio Acherner (Donna).
- Modello: seleziona il modello Text-to-Speech (TTS) da utilizzare, ad esempio
(Facoltativo) Espandi la sezione Opzioni avanzate per configurare le impostazioni audio tecniche:
- Codifica audio: seleziona la codifica per il file audio di output.
LINEAR16è un formato lossless e non compresso adatto all'elaborazione audio di alta qualità.MULAWè disponibile anche per l'output audio compresso. - Frequenza di campionamento audio: seleziona la frequenza di campionamento in hertz (Hz). Questo determina la qualità audio. Valori più alti, come 44.100 Hz, rappresentano un audio ad alta fedeltà, equivalente a quella dei CD.
- Velocità: regola la velocità del parlato spostando il cursore o inserendo un valore. I valori inferiori a 1 rallentano la voce, mentre i valori superiori a 1 la velocizzano. Il valore predefinito è 1.
- Guadagno del volume (dB): regola il volume dell'audio di output in decibel (dB). I valori positivi aumentano il volume, mentre i valori negativi lo diminuiscono. Il valore predefinito è 0.
- Codifica audio: seleziona la codifica per il file audio di output.
Fai clic sull'icona Invia a destra della casella di testo per generare l'audio.
L'audio generato viene visualizzato nel media player. Fai clic sul pulsante di riproduzione per ascoltare l'output. Puoi continuare a modificare le impostazioni e generare nuove versioni in base alle esigenze.
Suggerimenti per i prompt
Per creare un audio coinvolgente e dal suono naturale a partire da un testo, è necessario comprendere le sfumature della lingua parlata e tradurle in script. I suggerimenti seguenti ti aiuteranno a creare script che suonano autentici e a catturare il tono scelto.
Tre controlli chiave per la sintesi vocale
Per ottenere risultati più prevedibili e sfumati, assicurati che tutti e tre i seguenti componenti siano coerenti con l'output desiderato.
Prompt di stile Il controllo principale per la resa emotiva e il tono complessivi. Il prompt imposta il contesto per l'intero segmento del discorso.
Esempio:
You are an AI assistant speaking in a friendly and helpful tone.Esempio:
Narrate this in the calm, authoritative tone of a nature documentary narrator.
Contenuti testuali Il significato semantico delle parole che stai sintetizzando. Una frase evocativa coerente a livello emotivo con il prompt di stile produrrà risultati molto più affidabili rispetto a un testo neutro.
Buono: un prompt per un tono spaventato funziona meglio con un testo come
I think someone is in the house.Meno efficace: un prompt per un tono spaventato con un testo come
The meeting is at 4 PM.produrrà risultati ambigui.
Tag di markup
I tag tra parentesi quadre come [sigh] sono ideali per inserire un'azione o una modifica dello stile specifica e localizzata, non per impostare il tono generale. Funzionano in combinazione con il prompt di stile e i contenuti di testo.
Guida ai tag di markup
La nostra ricerca mostra che i tag di markup tra parentesi funzionano in una di tre modalità distinte. Comprendere la modalità di un tag è fondamentale per utilizzarlo in modo efficace.
Modalità 1: suoni non vocali
Il markup viene sostituito da una vocalizzazione udibile non vocale (ad es. un sospiro, una risata). Il tag non viene letto. Questi tag sono ideali per aggiungere esitazioni e reazioni realistiche, simili a quelle umane.
| Tag | Comportamento | Affidabilità | Indicazioni |
|---|---|---|---|
[sigh] |
Inserisce un sospiro. | Alta | La qualità emotiva del sospiro è influenzata dal prompt. |
[laughing] |
Inserisce una risata. | Alta | Per risultati ottimali, utilizza un prompt specifico. Ad esempio, un prompt generico potrebbe generare una risata di sorpresa, mentre "reagisci con una risata divertita" genera una risata di divertimento. |
[uhm] |
Inserisce un'esitazione. | Alta | Utile per creare un'atmosfera più naturale e conversazionale. |
Modalità 2: modificatori di stile
Il markup non viene letto, ma modifica la il modo un cui viene pronunciato il parlato successivo. L'ambito e la durata della modifica possono variare.
| Tag | Comportamento | Affidabilità | Indicazioni |
|---|---|---|---|
[sarcasm] |
Conferisce un tono sarcastico alla frase successiva. | Alta | Questo tag è un modificatore molto efficace. Dimostra che i concetti astratti possono determinare la resa vocale del modello. |
[robotic] |
Rende il discorso successivo robotico. | Alta | L'effetto può estendersi a un'intera frase. Si consiglia comunque di usare prompt di stile di supporto (ad es. "Di' questo in modo robotico") per ottenere risultati ottimali. |
[shouting] |
Aumenta il volume del discorso successivo. | Alta | Più efficace se abbinato a un prompt di stile corrispondente (ad es. "Urla questa parte") e un testo che implica l'azione di urlare. |
[whispering] |
Diminuisce il volume del discorso successivo. | Alta | I risultati migliori si ottengono quando anche il prompt di stile è esplicito (ad es. "ora sussurra questa parte con l'intensità più bassa possibile"). |
[extremely fast] |
Aumenta la velocità del discorso successivo. | Alta | Ideale per disclaimer o dialoghi veloci. È necessario un supporto minimo del prompt. |
Modalità 3: markup vocalizzato (aggettivi)
Il tag di markup viene letto come una parola e influisce anche sul tono dell'intera frase. Questo comportamento si applica in genere agli aggettivi emotivi.
Avviso: poiché il tag stesso viene letto, questa modalità potrebbe avere un effetto collaterale indesiderato per la maggior parte dei casi d'uso. Ti consigliamo di utilizzare il prompt di stile per impostare questi toni emotivi.
| Tag | Comportamento | Affidabilità | Indicazioni |
|---|---|---|---|
[scared] |
Viene pronunciata la parola "scared" e la frase avrà un tono spaventato. | Alta | Il rendimento dipende molto dai contenuti di testo. La frase "Ho appena sentito un vetro rompersi" produce un risultato di paura autentica. Una frase neutra produce un risultato "inquietante", ma meno autentico. |
[curious] |
Viene pronunciata la parola "curious" e la frase avrà un tono curioso. | Alta | Viene utilizzata una frase interrogativa per supportare l'intent del tag. |
[bored] |
Viene pronunciata la parola "bored" e la frase avrà un tono annoiato e monotono. | Alta | Per ottenere l'effetto migliore, utilizzalo in testi banali o ripetitivi. |
Modalità 4: ritmo e pause
Questi tag inseriscono momenti di silenzio nell'audio generato, in modo da avere un controllo granulare su ritmo, tempistica e andamento. Anche la punteggiatura standard (virgole, punti, punti e virgole) crea pause naturali, ma questi tag consentono di avere un controllo più esplicito.
| Tag | Comportamento | Affidabilità | Indicazioni |
|---|---|---|---|
[short pause] |
Inserisce una breve pausa, simile a una virgola (~250 ms). | Alta | Da usare per separare le frasi o le voci di un elenco per una maggiore chiarezza. |
[medium pause] |
Inserisce una pausa standard, simile a un'interruzione di frase (~500 ms). | Alta | Efficace per separare frasi o pensieri distinti. |
[long pause] |
Inserisce una pausa prolungata per creare un effetto drammatico (~1000 ms o più). | Alta | Da usare per creare un effetto drammatico. Ad esempio: "La risposta è… [long pause] ...no." Evita di utilizzarlo troppo spesso, perché può suonare innaturale. |
Strategie chiave per risultati affidabili
Allinea tutti e tre i controlli chiave Per ottenere risultati quanto più prevedibili possibile, assicurati che il prompt di stile, i contenuti di testo e i tag di markup siano tutti semanticamente coerenti e mirati allo stesso obiettivo.
Utilizza un testo ricco di emozioni Non fare affidamento solo su prompt e tag. Fornisci al modello un testo ricco e descrittivo da utilizzare. Ciò è particolarmente importante per ottenere emozioni sfumate come il sarcasmo, la paura o l'eccitazione.
Scrivi prompt specifici e dettagliati Più specifico è il prompt di stile, più affidabile sarà il risultato. "Reagisci con una risata divertita" è meglio di un semplice
[laughing]. "Parla come un annunciatore di notizie radiofoniche degli anni '40" è meglio di "Parla in modo antiquato".Testa e verifica nuovi tag Il comportamento di un tag nuovo o non testato non è sempre prevedibile. Un tag che ritieni sia un modificatore di stile potrebbe, invece, essere vocalizzato. Testa sempre una nuova combinazione di tag o prompt per verificarne il comportamento prima di distribuirlo in produzione.