Gemini-TTS

Prova un notebook Colab Visualizza il blocco note su GitHub

Gemini-TTS è l'ultima evoluzione della nostra tecnologia di Text-to-Speech, che va oltre la naturalezza per offrire un controllo granulare sull'audio generato utilizzando prompt basati su testo. Con Gemini-TTS, puoi sintetizzare la voce di un singolo parlante o di più parlanti da brevi snippet a narrazioni complete, definendo con precisione stile, accento, ritmo, tono e persino espressione emotiva, il tutto gestibile tramite prompt in linguaggio naturale.

Per esplorare questo modello nella console, consulta la scheda del modello Gemini-TTS in Model Garden (accessibile tramite la scheda Media Studio).

Prova Gemini-TTS su Vertex AI (Vertex AI Studio)

Le funzionalità di Gemini-TTS sono supportate da:

  • gemini-2.5-flash-tts: Gemini 2.5 Flash TTS è ideale per le applicazioni TTS quotidiane economiche.

  • gemini-2.5-pro-tts: Gemini 2.5 Pro TTS è ideale per la generazione di sintesi vocale controllabile e per la qualità all'avanguardia di prompt complessi.

Modello Ottimizzato per Modalità di input Modalità di output Unico interlocutore Multi-speaker
Gemini 2.5 Flash TTS Generazione di audio Text-to-Speech a bassa latenza, controllabile, con uno o più speaker per applicazioni quotidiane economiche Testo Audio ✔️ ✔️
Gemini 2.5 Pro TTS Controllo elevato per flussi di lavoro strutturati come la generazione di podcast, audiolibri, assistenza clienti e altro ancora Testo Audio ✔️ ✔️

Controlli e funzionalità aggiuntivi includono quanto segue:

  1. Conversazione naturale: le interazioni vocali di qualità straordinaria, con espressività e prosodia (schemi ritmici) più appropriate, vengono fornite con una latenza molto bassa, in modo da poter conversare in modo fluido.

  2. Controllo dello stile: utilizzando prompt in linguaggio naturale, puoi adattare la conversazione per adottare accenti specifici e produrre una gamma di toni ed espressioni, incluso un sussurro.

  3. Prestazioni dinamiche: questi modelli possono dare vita al testo per letture espressive di poesie, notiziari e storytelling coinvolgenti. Possono anche esibirsi con emozioni specifiche e produrre accenti su richiesta.

  4. Controllo avanzato del ritmo e della pronuncia: il controllo della velocità di riproduzione contribuisce a garantire una maggiore precisione nella pronuncia, incluse parole specifiche.

Esempi

model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Per informazioni su come utilizzare queste voci a livello di programmazione, consulta la sezione Utilizzare Gemini-TTS.

Opzioni vocali

Gemini-TTS offre un'ampia gamma di opzioni vocali simili a quelle di Chirp 3: HD Voices, ciascuna con caratteristiche distinte:

Nome Genere Demo
Achernar Donna
Achird Uomo
Algenib Uomo
Algieba Uomo
Alnilam Uomo
Aoede Donna
Autonoe Donna
Callirrhoe Donna
Caronte Uomo
Despina Donna
Encelado Uomo
Erinome Donna
Fenrir Uomo
Gacrux Donna
Giapeto Uomo
Kore Donna
Laomedeia Donna
Leda Donna
Orus Uomo
Pulcherrima Donna
Puck Uomo
Rasalgethi Uomo
Sadachbia Uomo
Sadaltager Uomo
Schedar Uomo
Sulafat Donna
Umbriel Uomo
Vindemiatrix Donna
Zephyr Donna
Zubenelgenubi Uomo

Lingue disponibili

Gemini-TTS supporta le seguenti lingue:

Lingua Codice BCP-47 Preparazione al lancio
Arabo (Egitto) ar-EG GA
Olandese (Paesi Bassi) nl-NL GA
Inglese (India) en-IN GA
Inglese (Stati Uniti) en-US GA
Francese (Francia) fr-FR GA
Tedesco (Germania) de-DE GA
Hindi (India) hi-IN GA
Indonesiano (Indonesia) id-ID GA
Italiano (Italia) it-IT GA
Giapponese (Giappone) ja-JP GA
Coreano (Corea del Sud) ko-KR GA
Marathi (India) mr-IN GA
Polacco (Polonia) pl-PL GA
Portoghese (Brasile) pt-BR GA
Rumeno (Romania) ro-RO GA
Russo (Russia) ru-RU GA
Spagnolo (Spagna) es-ES GA
Tamil (India) ta-IN GA
Telugu (India) te-IN GA
Thailandese (Thailandia) th-TH GA
Turco (Turchia) tr-TR GA
Ucraino (Ucraina) uk-UA GA
Vietnamita (Vietnam) vi-VN GA
Afrikaans (Sudafrica) af-ZA Anteprima
Albanese (Albania) sq-AL Anteprima
Amarico (Etiopia) am-ET Anteprima
Arabo (mondo) ar-001 Anteprima
Armeno (Armenia) hy-AM Anteprima
Azero (Azerbaigian) az-AZ Anteprima
Bengalese (Bangladesh) bn-bd Anteprima
Basco (Spagna) eu-ES Anteprima
Bielorusso (Bielorussia) be-BY Anteprima
Bulgaro (Bulgaria) bg-BG Anteprima
Birmano (Myanmar) my-MM Anteprima
Catalano (Spagna) ca-ES Anteprima
Cebuano (Filippine) ceb-PH Anteprima
Cinese, mandarino (Cina) cmn-cn Anteprima
Cinese, mandarino (Taiwan) cmn-tw Anteprima
Croato (Croazia) hr-RU Anteprima
Ceco (Repubblica Ceca) cs-CZ Anteprima
Danese (Danimarca) da-DK Anteprima
Inglese (Australia) en-AU Anteprima
Inglese (Regno Unito) en-GB Anteprima
Estone (Estonia) et-EE Anteprima
Filippino (Filippine) fil-PH Anteprima
Finlandese (Finlandia) fi-FI Anteprima
Francese (Canada) fr-CA Anteprima
Galiziano (Spagna) gl-ES Anteprima
Georgiano (Georgia) ka-GE Anteprima
Greco (Grecia) el-GR Anteprima
Gujarati (India) gu-IN Anteprima
Creolo haitiano (Haiti) ht-HT Anteprima
Ebraico (Israele) he-IL Anteprima
Ungherese (Ungheria) hu-HU Anteprima
Islandese (Islanda) is-IS Anteprima
Giavanese (Java) jv-JV Anteprima
Kannada (India) kn-IN Anteprima
Konkani (India) kok-in Anteprima
Lao (Laos) lo-LA Anteprima
Latino (Città del Vaticano) la-VA Anteprima
Lettone (Lettonia) lv-LV Anteprima
Lituano (Lituania) lt-IT Anteprima
Lussemburghese (Lussemburgo) lb-LU Anteprima
Macedone (Macedonia del Nord) mk-MK Anteprima
Maithili (India) mai-IN Anteprima
Malgascio (Madagascar) mg-MG Anteprima
Malese (Malaysia) ms-MY Anteprima
Malayalam (India) ml-IN Anteprima
Mongolo (Mongolia) mn-MN Anteprima
Nepalese (Nepal) ne-NP Anteprima
Norvegese, bokmål (Norvegia) nb-NO Anteprima
Norvegese, Nynorsk (Norvegia) nn-NO Anteprima
Odia (India) or-IN Anteprima
Pashto (Afghanistan) ps-AF Anteprima
Persiano (Iran) fa-IR Anteprima
Portoghese (Portogallo) pt-PT Anteprima
Punjabi (India) pa-IN Anteprima
Serbo (Serbia) sr-RS Anteprima
Sindhi (India) sd-IN Anteprima
Singalese (Sri Lanka) si-LK Anteprima
Slovacco (Slovacchia) sk-SK Anteprima
Sloveno (Slovenia) sl-SI Anteprima
Spagnolo (America Latina) es-419 Anteprima
Spagnolo (Messico) es-MX Anteprima
Swahili (Kenya) sw-KE Anteprima
Svedese (Svezia) sv-SE Anteprima
Urdu (Pakistan) ur-PK Anteprima

Disponibilità a livello di regione

I modelli Gemini-TTS sono disponibili nelle seguenti regioni Google Cloud rispettivamente:

Google Cloud zona Preparazione al lancio
global GA

Formati di output supportati

Il formato di risposta predefinito è LINEAR16. Altri formati supportati includono:

Metodo API Formato
batch ALAW, MULAW, MP3, OGG_OPUS e PCM
streaming Non supportata

Utilizzare Gemini-TTS

Scopri come utilizzare i modelli Gemini-TTS per sintetizzare la voce di una o più persone.

Prima di iniziare

Prima di poter iniziare a utilizzare Text-to-Speech, devi abilitare l'API nella consoleGoogle Cloud seguendo questi passaggi:

  1. Attiva Text-to-Speech in un progetto.
  2. Assicurati che la fatturazione sia attivata per Text-to-Speech.
  3. Configura l'autenticazione per l'ambiente di sviluppo.

Configura il progetto Google Cloud

  1. Accedi alla console Google Cloud

  2. Vai alla pagina di selezione del progetto

    Puoi scegliere un progetto esistente o crearne uno nuovo. Per maggiori dettagli sulla creazione di un progetto, consulta la documentazione diGoogle Cloud .

  3. Se crei un nuovo progetto, viene visualizzato un messaggio che ti informa di collegare un account di fatturazione. Se utilizzi un progetto preesistente, assicurati di attivare la fatturazione.

    Scopri come verificare che la fatturazione sia attivata per il tuo progetto

  4. Dopo aver selezionato un progetto e averlo collegato a un account di fatturazione, puoi abilitare l'API Text-to-Speech. Vai alla barra Cerca prodotti e risorse nella parte superiore della pagina e digita "speech". Seleziona l'API Cloud Text-to-Speech dall'elenco dei risultati.

  5. Per provare Text-to-Speech senza collegarlo al tuo progetto, scegli l'opzione Prova questa API. Per abilitare l'API Text-to-Speech per l'utilizzo con il tuo progetto, fai clic su Abilita.

  6. Configura l'autenticazione per l'ambiente di sviluppo. Per istruzioni, vedi Configurare l'autenticazione per Text-to-Speech.

Eseguire la sintesi sincrona di un singolo oratore

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Eseguire la sintesi sincrona di più oratori con l'input di testo in formato libero

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Eseguire la sintesi sincrona multi-speaker con input di testo strutturato

La funzionalità multi-speaker con input di testo strutturato consente la verbalizzazione intelligente del testo in modo simile a quello umano. Ad esempio, questo tipo di input è utile per indirizzi e date. L'input di testo in formato libero legge il testo esattamente come è scritto.

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Eseguire la sintesi vocale in Media Studio

Puoi utilizzare Media Studio nella console Google Google Cloud per sperimentare i modelli di sintesi vocale. Fornisce un'interfaccia utente per generare, ascoltare rapidamente l'audio sintetizzato e sperimentare diversi parametri e istruzioni di stile.

  1. Nella console Google Google Cloud , vai alla pagina Vertex AI Studio > Media Studio.

    Media Studio

  2. Seleziona Discorso dal menu a discesa dei contenuti multimediali.

  3. Nel campo di testo, inserisci il testo che vuoi sintetizzare in voce.

  4. Nel riquadro Impostazioni, configura le seguenti impostazioni:

    1. Modello: seleziona il modello di Text-to-Speech (TTS) che vuoi utilizzare, ad esempio Gemini 2.5 Pro TTS. Per saperne di più sui modelli disponibili, consulta Modelli di sintesi vocale.
    2. Istruzioni di stile: (facoltativo) inserisci un prompt di testo che descriva lo stile, il tono e l'emotività della voce selezionata. In questo modo, puoi guidare le prestazioni del modello oltre la narrazione predefinita. Ad esempio: "Narra con un tono calmo e professionale per un documentario".
    3. Lingua: seleziona la lingua e la regione del testo di input. Il modello genera la voce nella lingua e nell'accento selezionati. Ad esempio, inglese (Stati Uniti).
    4. Voce: scegli una voce predefinita per la narrazione. L'elenco contiene le voci disponibili per il modello e la lingua selezionati, ad esempio Acherner (femminile).
  5. (Facoltativo) Espandi la sezione Opzioni avanzate per configurare le impostazioni audio tecniche:

    1. Codifica audio: seleziona la codifica per il file audio di output. LINEAR16 è un formato senza perdita di dati e non compresso adatto all'elaborazione audio di alta qualità. MULAW è disponibile anche per l'uscita audio compressa.
    2. Frequenza di campionamento audio: seleziona la frequenza di campionamento in hertz (Hz). Ciò determina la qualità audio. Valori più alti, come 44.100 Hz, rappresentano un audio di fedeltà superiore, equivalente alla qualità CD.
    3. Velocità: regola la velocità del parlato spostando il cursore o inserendo un valore. I valori inferiori a 1 rallentano la voce, mentre quelli superiori a 1 la velocizzano. Il valore predefinito è 1.
    4. Guadagno del volume (dB): regola il volume dell'audio di output in decibel (dB). I valori positivi aumentano il volume, mentre i valori negativi lo diminuiscono. Il valore predefinito è 0.
  6. Fai clic sull'icona Invia a destra della casella di testo per generare l'audio.

  7. L'audio generato viene visualizzato nel media player. Fai clic sul pulsante di riproduzione per ascoltare l'output. Puoi continuare a modificare le impostazioni e generare nuove versioni in base alle esigenze.

Suggerimenti per i prompt

Per creare un audio coinvolgente e dal suono naturale a partire da un testo, è necessario comprendere le sfumature della lingua parlata e tradurle in formato di script. I seguenti suggerimenti ti aiuteranno a creare script che suonino autentici e che catturino il tono scelto.

I tre controlli della sintesi vocale

Per ottenere risultati più prevedibili e sfumati, assicurati che tutti e tre i seguenti componenti siano coerenti con l'output desiderato.

Prompt di stile Il principale fattore che determina il tono emotivo e l'esecuzione complessivi. Il prompt imposta il contesto per l'intero segmento del discorso.

  • Esempio: You are an AI assistant speaking in a friendly and helpful tone.

  • Esempio: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Contenuto testuale Il significato semantico delle parole che stai sintetizzando. Una frase evocativa coerente a livello emotivo con il prompt di stile produrrà risultati molto più affidabili rispetto a un testo neutro.

  • Buono: un prompt per un tono spaventato funziona meglio con un testo come I think someone is in the house.

  • Meno efficace: un prompt per un tono spaventato con un testo come The meeting is at 4 PM. produrrà risultati ambigui.

Tag di markup I tag tra parentesi quadre come [sigh] sono ideali per inserire un'azione o una modifica dello stile specifica e localizzata, non per impostare il tono generale. Funzionano in combinazione con il prompt di stile e i contenuti di testo.

Guida ai tag di markup

La nostra ricerca mostra che i tag di markup tra parentesi funzionano in una delle tre modalità distinte. Comprendere la modalità di un tag è fondamentale per utilizzarlo in modo efficace.

Modalità 1: suoni non vocali

Il markup viene sostituito da una vocalizzazione udibile non vocale (ad es. un sospiro, una risata). Il tag stesso non viene letto. Sono perfetti per aggiungere esitazioni e reazioni realistiche e simili a quelle umane.

Tag Comportamento Affidabilità Consulenza
[sigh] Inserisce un sospiro. Alta La qualità emotiva del sospiro è influenzata dal prompt.
[laughing] Inserisce una risata. Alta Per risultati ottimali, utilizza un prompt specifico. Ad esempio, un prompt generico potrebbe generare una risata di sorpresa, mentre "reagisci con una risata divertita" genera una risata di divertimento.
[uhm] Inserisce un suono di esitazione. Alta Utile per creare un'atmosfera più naturale e conversazionale.

Modalità 2: modificatori di stile

Il markup non viene letto, ma modifica la pronuncia del discorso successivo. L'ambito e la durata della modifica possono variare.

Tag Comportamento Affidabilità Consulenza
[sarcasm] Conferisce un tono sarcastico alla frase successiva. Alta Questo tag è un potente modificatore. Dimostra che i concetti astratti possono guidare correttamente la pubblicazione del modello.
[robotic] Rende il discorso successivo robotico. Alta L'effetto può estendersi a un'intera frase. Un prompt di stile di supporto (ad es. "Di' questo in modo robotico") è ancora consigliato per ottenere risultati ottimali.
[shouting] Aumenta il volume del discorso successivo. Alta Più efficace se abbinato a un prompt di stile corrispondente (ad es. "Urla questa parte") e testo che implica urla.
[whispering] Diminuisce il volume del discorso successivo. Alta I risultati migliori si ottengono quando anche il prompt di stile è esplicito (ad es. "now whisper this part as quietly as you can").
[extremely fast] Aumenta la velocità del discorso successivo. Alta Ideale per disclaimer o dialoghi veloci. È necessario un supporto minimo per i prompt.

Modalità 3: markup vocalizzato (aggettivi)

Il tag di markup viene letto come una parola e influisce anche sul tono dell'intera frase. Questo comportamento si applica in genere agli aggettivi emotivi.

Avviso: poiché il tag stesso viene letto, questa modalità è probabilmente un effetto collaterale indesiderato per la maggior parte dei casi d'uso. Ti consigliamo di utilizzare il prompt di stile per impostare questi toni emotivi.

Tag Comportamento Affidabilità Consulenza
[scared] Viene pronunciata la parola "paura" e la frase assume un tono spaventato. Alta Il rendimento dipende molto dai contenuti di testo. La frase "Ho appena sentito un vetro rompersi" produce un risultato di paura autentica. Una frase neutra produce un risultato "inquietante" ma meno autentico.
[curious] Viene pronunciata la parola "curioso" e la frase assume un tono curioso. Alta Utilizza una frase interrogativa per supportare l'intento del tag.
[bored] Viene pronunciata la parola "annoia" e la frase assume un tono annoiato e monotono. Alta Per ottenere l'effetto migliore, utilizzalo con testi banali o ripetitivi.

Modalità 4: ritmo e pause

Questi tag inseriscono il silenzio nell'audio generato, offrendoti un controllo granulare su ritmo, tempistica e andamento. La punteggiatura standard (virgole, punti, punti e virgole) crea anche pause naturali, ma questi tag offrono un controllo più esplicito.

Tag Comportamento Affidabilità Consulenza
[short pause] Inserisce una breve pausa, simile a una virgola (~250 ms). Alta Utilizzalo per separare le clausole o gli elementi di un elenco per una maggiore chiarezza.
[medium pause] Inserisce una pausa standard, simile a un'interruzione di frase (~500 ms). Alta Efficace per separare frasi o pensieri distinti.
[long pause] Inserisce una pausa significativa per creare un effetto drammatico (~1000 ms o più). Alta Utilizzare per creare un effetto drammatico. Ad esempio: "La risposta è… [long pause] …no." Evita di utilizzarlo troppo spesso, perché può suonare innaturale.

Strategie chiave per risultati affidabili

  • Allinea tutte e tre le leve Per la massima prevedibilità, assicurati che il prompt di stile, i contenuti di testo e i tag di markup siano tutti semanticamente coerenti e mirati allo stesso obiettivo.

  • Utilizza un testo ricco di emozioni Non fare affidamento solo su prompt e tag. Fornisci al modello un testo ricco e descrittivo da utilizzare. Ciò è particolarmente importante per le emozioni sfumate come il sarcasmo, la paura o l'eccitazione.

  • Scrivi prompt specifici e dettagliati Più specifico è il prompt di stile, più affidabile sarà il risultato. "Reagisci con una risata divertita" è meglio di un semplice [laughing]. "Speak like a 1940s radio news announcer" (Parla come un annunciatore di notizie radiofoniche degli anni '40) è meglio di "Speak in an old-fashioned way" (Parla in modo antiquato).

  • Testa e verifica i nuovi tag Il comportamento di un tag nuovo o non testato non è sempre prevedibile. Un tag che ritieni sia un modificatore di stile potrebbe essere vocalizzato. Testa sempre una nuova combinazione di tag o prompt per verificarne il comportamento prima di eseguire il deployment in produzione.