Gemini-TTS

Prova Gemini-TTS in Vertex AI Studio Prova in Colab Visualizza il notebook su GitHub

Gemini-TTS è l'ultima evoluzione della nostra tecnologia Text-to-Speech, che va oltre il parlato naturale e fornisce un controllo granulare sull'audio generato utilizzando prompt basati su testo. Con Gemini-TTS, puoi sintetizzare la voce di una singola persona o di più relatori, da brevi frasi a narrazioni complete, definendo con precisione stile, accento, ritmo, tono e persino espressione emotiva, il tutto gestibile tramite prompt in linguaggio naturale.

Modelli disponibili

Gemini-TTS include i seguenti modelli:

Gemini 2.5 Flash TTS

ID modello gemini-2.5-flash-tts
Ottimizzato per Generazione di audio Text-to-Speech a bassa latenza, controllabile, con uno o più relatori per applicazioni quotidiane economiche
Modalità di input e output
  • Input: testo
  • Output: audio
Supporto del numero di relatori Singolo, più relatori
Formati audio di output supportati* LINEAR16 (predefinito), ALAW, MULAW, MP3, OGG_OPUS, PCM
Supporto regionale global
Opzioni vocali Consulta Opzioni vocali
Lingue disponibili Consulta Lingue disponibili
Esempio
model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary.
       Check our website or your local store for complete
       details and restrictions."
speaker: "Kore"
            

Gemini 2.5 Pro TTS

ID modello gemini-2.5-pro-tts
Ottimizzato per Controllo elevato per workflow strutturati come generazione di podcast, audiolibri, assistenza clienti e altro ancora
Modalità di input e output
  • Input: testo
  • Output: audio
Supporto del numero di relatori Singolo, più relatori
Formati audio di output supportati* LINEAR16 (predefinito), ALAW, MULAW, MP3, OGG_OPUS, PCM
Supporto regionale global
Opzioni vocali Consulta Opzioni vocali
Lingue disponibili Consulta Lingue disponibili
Esempio
model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend.
         Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirrhoe"
            

* Solo batch. streaming non è supportato.

Controlli aggiuntivi

Ecco una serie di funzionalità e controlli aggiuntivi:

  1. Conversazione naturale: le interazioni vocali di qualità straordinaria, con espressività e schemi ritmici più appropriati, hanno una latenza molto bassa, il che rende più fluida la conversazione.

  2. Controllo dello stile: utilizza dei prompt in linguaggio naturale per adattare la conversazione in modo da adottare accenti specifici e produrre un'ampia gamma di toni ed espressioni, inclusi i sussurri.

  3. Prestazioni dinamiche: questi modelli possono generare discorsi molto realistici dal testo per leggere in modo espressivo poesie, notiziari e narrazioni coinvolgenti. Possono anche esprimere emozioni specifiche e usare accenti locali, se necessario.

  4. Controllo avanzato del ritmo e della pronuncia: il controllo della velocità del parlato contribuisce a garantire una maggiore accuratezza nella pronuncia, incluse parole specifiche.

Per informazioni su come utilizzare queste voci nella tua applicazione, consulta Utilizza Gemini-TTS.

Opzioni vocali

Gemini-TTS offre un'ampia gamma di opzioni vocali simili a quelle di Chirp 3: voci in HD, ciascuna con caratteristiche distinte:

Nome Genere Demo
Achernar Donna
Achird Uomo
Algenib Uomo
Algieba Uomo
Alnilam Uomo
Aoede Donna
Autonoe Donna
Callirrhoe Donna
Charon Uomo
Despina Donna
Enceladus Uomo
Erinome Donna
Fenrir Uomo
Gacrux Donna
Iapetus Uomo
Kore Donna
Laomedeia Donna
Leda Donna
Orus Uomo
Pulcherrima Donna
Puck Uomo
Rasalgethi Uomo
Sadachbia Uomo
Sadaltager Uomo
Schedar Uomo
Sulafat Donna
Umbriel Uomo
Vindemiatrix Donna
Zephyr Donna
Zubenelgenubi Uomo

Lingue disponibili

Gemini-TTS supporta le seguenti lingue:

Lingua Codice BCP-47 Stato del lancio
Arabo (Egitto) ar-EG GA
Olandese (Paesi Bassi) nl-NL GA
Inglese (India) en-IN GA
Inglese (Stati Uniti) en-US GA
Francese (Francia) fr-FR GA
Tedesco (Germania) de-DE GA
Hindi (India) hi-IN GA
Indonesiano (Indonesia) id-ID GA
Italiano (Italia) it-IT GA
Giapponese (Giappone) ja-JP GA
Coreano (Corea del Sud) ko-KR GA
Marathi (India) mr-IN GA
Polacco (Polonia) pl-PL GA
Portoghese (Brasile) pt-BR GA
Rumeno (Romania) ro-RO GA
Russo (Russia) ru-RU GA
Spagnolo (Spagna) es-ES GA
Tamil (India) ta-IN GA
Telugu (India) te-IN GA
Thailandese (Thailandia) th-TH GA
Turco (Turchia) tr-TR GA
Ucraino (Ucraina) uk-UA GA
Vietnamita (Vietnam) vi-VN GA
Afrikaans (Sudafrica) af-ZA Anteprima
Albanese (Albania) sq-AL Anteprima
Amarico (Etiopia) am-ET Anteprima
Arabo (mondo) ar-001 Anteprima
Armeno (Armenia) hy-AM Anteprima
Azero (Azerbaigian) az-AZ Anteprima
Bengalese (Bangladesh) bn-BD Anteprima
Basco (Spagna) eu-ES Anteprima
Bielorusso (Bielorussia) be-BY Anteprima
Bulgaro (Bulgaria) bg-BG Anteprima
Birmano (Myanmar) my-MM Anteprima
Catalano (Spagna) ca-ES Anteprima
Cebuano (Filippine) ceb-PH Anteprima
Cinese, mandarino (Cina) cmn-CN Anteprima
Cinese, mandarino (Taiwan) cmn-tw Anteprima
Croato (Croazia) hr-HR Anteprima
Ceco (Repubblica Ceca) cs-CZ Anteprima
Danese (Danimarca) da-DK Anteprima
Inglese (Australia) en-AU Anteprima
Inglese (Regno Unito) en-GB Anteprima
Estone (Estonia) et-EE Anteprima
Filippino (Filippine) fil-PH Anteprima
Finlandese (Finlandia) fi-FI Anteprima
Francese (Canada) fr-CA Anteprima
Galiziano (Spagna) gl-ES Anteprima
Georgiano (Georgia) ka-GE Anteprima
Greco (Grecia) el-GR Anteprima
Gujarati (India) gu-IN Anteprima
Creolo haitiano (Haiti) ht-HT Anteprima
Ebraico (Israele) he-IL Anteprima
Ungherese (Ungheria) hu-HU Anteprima
Islandese (Islanda) is-IS Anteprima
Giavanese (Java) jv-JV Anteprima
Kannada (India) kn-IN Anteprima
Konkani (India) kok-IN Anteprima
Lao (Laos) lo-LA Anteprima
Latino (Città del Vaticano) la-VA Anteprima
Lettone (Lettonia) lv-LV Anteprima
Lituano (Lituania) lt-LT Anteprima
Lussemburghese (Lussemburgo) lb-LU Anteprima
Macedone (Macedonia del Nord) mk-MK Anteprima
Maithili (India) mai-IN Anteprima
Malgascio (Madagascar) mg-MG Anteprima
Malese (Malaysia) ms-MY Anteprima
Malayalam (India) ml-IN Anteprima
Mongolo (Mongolia) mn-MN Anteprima
Nepalese (Nepal) ne-NP Anteprima
Norvegese, bokmål (Norvegia) nb-NO Anteprima
Norvegese, nynorsk (Norvegia) nn-NO Anteprima
Odia (India) or-IN Anteprima
Pashto (Afghanistan) ps-AF Anteprima
Persiano (Iran) fa-IR Anteprima
Portoghese (Portogallo) pt-PT Anteprima
Punjabi (India) pa-IN Anteprima
Serbo (Serbia) sr-RS Anteprima
Sindhi (India) sd-IN Anteprima
Singalese (Sri Lanka) si-LK Anteprima
Slovacco (Slovacchia) sk-SK Anteprima
Sloveno (Slovenia) sl-SI Anteprima
Spagnolo (America Latina) es-419 Anteprima
Spagnolo (Messico) es-MX Anteprima
Swahili (Kenya) sw-KE Anteprima
Svedese (Svezia) sv-SE Anteprima
Urdu (Pakistan) ur-PK Anteprima

Utilizza Gemini-TTS

Scopri come utilizzare i modelli Gemini-TTS per sintetizzare la voce di una o più persone.

Prima di iniziare

Prima di poter iniziare a utilizzare Text-to-Speech, devi attivare l'API nella consoleGoogle Cloud . Segui questi passaggi:

  1. Attiva Text-to-Speech in un progetto.
  2. Assicurati che la fatturazione sia abilitata per Text-to-Speech.
  3. Configura l'autenticazione per l'ambiente di sviluppo.

Configura il progetto Google Cloud

  1. Accedi alla console Google Cloud

  2. Vai alla pagina del selettore dei progetti

    Puoi scegliere un progetto esistente o crearne uno nuovo. Per maggiori dettagli sulla creazione di un progetto, consulta la documentazione diGoogle Cloud .

  3. Se crei un nuovo progetto, viene visualizzato un messaggio che ti informa di collegare un account di fatturazione. Se utilizzi un progetto preesistente, assicurati di attivare la fatturazione.

    Scopri come verificare che la fatturazione sia abilitata per il tuo progetto

  4. Dopo aver selezionato un progetto e averlo collegato a un account di fatturazione, puoi abilitare l'API Text-to-Speech. Vai alla barra Cerca prodotti e risorse nella parte superiore della pagina e digita "speech". Seleziona l'API Cloud Text-to-Speech dall'elenco dei risultati.

  5. Per provare Text-to-Speech senza collegarlo al tuo progetto, scegli l'opzione Prova questa API. Per abilitare l'API Text-to-Speech in modo da utilizzarla nel progetto, fai clic su Abilita.

  6. Configura l'autenticazione per l'ambiente di sviluppo. Per le istruzioni, consulta Configura l'autenticazione per Text-to-Speech.

Esegui la sintesi sincrona di un singolo relatore

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Esegui la sintesi sincrona di più relatori con input di testo in formato libero

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Esegui la sintesi sincrona di più relatori con input di testo strutturato

La funzionalità di più relatori con input di testo strutturato consente la verbalizzazione intelligente del testo in modo simile a quello umano. Ad esempio, questo tipo di input è utile per indirizzi e date. L'input di testo in formato libero fa sì che il testo venga pronunciato esattamente come è stato scritto.

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Esegui la sintesi vocale in Media Studio

Puoi utilizzare Media Studio nella console Google Google Cloud per sperimentare i modelli di sintesi vocale. Fornisce un'interfaccia utente per generare rapidamente l'audio, ascoltare quello sintetizzato e sperimentare diversi parametri e istruzioni di stile.

  1. Nella console Google Google Cloud , vai alla pagina Vertex AI Studio > Media Studio.

    Media Studio

  2. Seleziona Speech dal menu a discesa dei contenuti multimediali.

  3. Nel campo di testo, inserisci il testo che vuoi sintetizzare in parlato.

  4. Nel riquadro Impostazioni, configura le seguenti impostazioni:

    1. Modello: seleziona il modello Text-to-Speech (TTS) da utilizzare, ad esempio Gemini 2.5 Pro TTS. Per ulteriori informazioni sui modelli disponibili, consulta Modelli Text-to-Speech.
    2. Istruzioni di stile: (facoltativo) inserisci un prompt di testo che descriva lo stile, il tono e la resa emotiva della voce selezionata. In questo modo, puoi ottimizzare le prestazioni del modello, andando oltre la narrazione predefinita. Ad esempio: "Usa una narrazione dal tono calmo e professionale per un documentario".
    3. Lingua: seleziona la lingua e la regione del testo di input. Il modello genera il parlato nella lingua e nell'accento selezionati. Ad esempio, Inglese (Stati Uniti).
    4. Voce: scegli una voce predefinita per la narrazione. L'elenco contiene le voci disponibili per il modello e la lingua selezionati, ad esempio Acherner (Donna).
  5. (Facoltativo) Espandi la sezione Opzioni avanzate per configurare le impostazioni audio tecniche:

    1. Codifica audio: seleziona la codifica per il file audio di output. LINEAR16 è un formato lossless e non compresso adatto all'elaborazione audio di alta qualità. MULAW è disponibile anche per l'output audio compresso.
    2. Frequenza di campionamento audio: seleziona la frequenza di campionamento in hertz (Hz). Questo determina la qualità audio. Valori più alti, come 44.100 Hz, rappresentano un audio ad alta fedeltà, equivalente a quella dei CD.
    3. Velocità: regola la velocità del parlato spostando il cursore o inserendo un valore. I valori inferiori a 1 rallentano la voce, mentre i valori superiori a 1 la velocizzano. Il valore predefinito è 1.
    4. Guadagno del volume (dB): regola il volume dell'audio di output in decibel (dB). I valori positivi aumentano il volume, mentre i valori negativi lo diminuiscono. Il valore predefinito è 0.
  6. Fai clic sull'icona Invia a destra della casella di testo per generare l'audio.

  7. L'audio generato viene visualizzato nel media player. Fai clic sul pulsante di riproduzione per ascoltare l'output. Puoi continuare a modificare le impostazioni e generare nuove versioni in base alle esigenze.

Suggerimenti per i prompt

Per creare un audio coinvolgente e dal suono naturale a partire da un testo, è necessario comprendere le sfumature della lingua parlata e tradurle in script. I suggerimenti seguenti ti aiuteranno a creare script che suonano autentici e a catturare il tono scelto.

Tre controlli chiave per la sintesi vocale

Per ottenere risultati più prevedibili e sfumati, assicurati che tutti e tre i seguenti componenti siano coerenti con l'output desiderato.

Prompt di stile Il controllo principale per la resa emotiva e il tono complessivi. Il prompt imposta il contesto per l'intero segmento del discorso.

  • Esempio: You are an AI assistant speaking in a friendly and helpful tone.

  • Esempio: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Contenuti testuali Il significato semantico delle parole che stai sintetizzando. Una frase evocativa coerente a livello emotivo con il prompt di stile produrrà risultati molto più affidabili rispetto a un testo neutro.

  • Buono: un prompt per un tono spaventato funziona meglio con un testo come I think someone is in the house.

  • Meno efficace: un prompt per un tono spaventato con un testo come The meeting is at 4 PM. produrrà risultati ambigui.

Tag di markup I tag tra parentesi quadre come [sigh] sono ideali per inserire un'azione o una modifica dello stile specifica e localizzata, non per impostare il tono generale. Funzionano in combinazione con il prompt di stile e i contenuti di testo.

Guida ai tag di markup

La nostra ricerca mostra che i tag di markup tra parentesi funzionano in una di tre modalità distinte. Comprendere la modalità di un tag è fondamentale per utilizzarlo in modo efficace.

Modalità 1: suoni non vocali

Il markup viene sostituito da una vocalizzazione udibile non vocale (ad es. un sospiro, una risata). Il tag non viene letto. Questi tag sono ideali per aggiungere esitazioni e reazioni realistiche, simili a quelle umane.

Tag Comportamento Affidabilità Indicazioni
[sigh] Inserisce un sospiro. Alta La qualità emotiva del sospiro è influenzata dal prompt.
[laughing] Inserisce una risata. Alta Per risultati ottimali, utilizza un prompt specifico. Ad esempio, un prompt generico potrebbe generare una risata di sorpresa, mentre "reagisci con una risata divertita" genera una risata di divertimento.
[uhm] Inserisce un'esitazione. Alta Utile per creare un'atmosfera più naturale e conversazionale.

Modalità 2: modificatori di stile

Il markup non viene letto, ma modifica la il modo un cui viene pronunciato il parlato successivo. L'ambito e la durata della modifica possono variare.

Tag Comportamento Affidabilità Indicazioni
[sarcasm] Conferisce un tono sarcastico alla frase successiva. Alta Questo tag è un modificatore molto efficace. Dimostra che i concetti astratti possono determinare la resa vocale del modello.
[robotic] Rende il discorso successivo robotico. Alta L'effetto può estendersi a un'intera frase. Si consiglia comunque di usare prompt di stile di supporto (ad es. "Di' questo in modo robotico") per ottenere risultati ottimali.
[shouting] Aumenta il volume del discorso successivo. Alta Più efficace se abbinato a un prompt di stile corrispondente (ad es. "Urla questa parte") e un testo che implica l'azione di urlare.
[whispering] Diminuisce il volume del discorso successivo. Alta I risultati migliori si ottengono quando anche il prompt di stile è esplicito (ad es. "ora sussurra questa parte con l'intensità più bassa possibile").
[extremely fast] Aumenta la velocità del discorso successivo. Alta Ideale per disclaimer o dialoghi veloci. È necessario un supporto minimo del prompt.

Modalità 3: markup vocalizzato (aggettivi)

Il tag di markup viene letto come una parola e influisce anche sul tono dell'intera frase. Questo comportamento si applica in genere agli aggettivi emotivi.

Avviso: poiché il tag stesso viene letto, questa modalità potrebbe avere un effetto collaterale indesiderato per la maggior parte dei casi d'uso. Ti consigliamo di utilizzare il prompt di stile per impostare questi toni emotivi.

Tag Comportamento Affidabilità Indicazioni
[scared] Viene pronunciata la parola "scared" e la frase avrà un tono spaventato. Alta Il rendimento dipende molto dai contenuti di testo. La frase "Ho appena sentito un vetro rompersi" produce un risultato di paura autentica. Una frase neutra produce un risultato "inquietante", ma meno autentico.
[curious] Viene pronunciata la parola "curious" e la frase avrà un tono curioso. Alta Viene utilizzata una frase interrogativa per supportare l'intent del tag.
[bored] Viene pronunciata la parola "bored" e la frase avrà un tono annoiato e monotono. Alta Per ottenere l'effetto migliore, utilizzalo in testi banali o ripetitivi.

Modalità 4: ritmo e pause

Questi tag inseriscono momenti di silenzio nell'audio generato, in modo da avere un controllo granulare su ritmo, tempistica e andamento. Anche la punteggiatura standard (virgole, punti, punti e virgole) crea pause naturali, ma questi tag consentono di avere un controllo più esplicito.

Tag Comportamento Affidabilità Indicazioni
[short pause] Inserisce una breve pausa, simile a una virgola (~250 ms). Alta Da usare per separare le frasi o le voci di un elenco per una maggiore chiarezza.
[medium pause] Inserisce una pausa standard, simile a un'interruzione di frase (~500 ms). Alta Efficace per separare frasi o pensieri distinti.
[long pause] Inserisce una pausa prolungata per creare un effetto drammatico (~1000 ms o più). Alta Da usare per creare un effetto drammatico. Ad esempio: "La risposta è… [long pause] ...no." Evita di utilizzarlo troppo spesso, perché può suonare innaturale.

Strategie chiave per risultati affidabili

  • Allinea tutti e tre i controlli chiave Per ottenere risultati quanto più prevedibili possibile, assicurati che il prompt di stile, i contenuti di testo e i tag di markup siano tutti semanticamente coerenti e mirati allo stesso obiettivo.

  • Utilizza un testo ricco di emozioni Non fare affidamento solo su prompt e tag. Fornisci al modello un testo ricco e descrittivo da utilizzare. Ciò è particolarmente importante per ottenere emozioni sfumate come il sarcasmo, la paura o l'eccitazione.

  • Scrivi prompt specifici e dettagliati Più specifico è il prompt di stile, più affidabile sarà il risultato. "Reagisci con una risata divertita" è meglio di un semplice [laughing]. "Parla come un annunciatore di notizie radiofoniche degli anni '40" è meglio di "Parla in modo antiquato".

  • Testa e verifica nuovi tag Il comportamento di un tag nuovo o non testato non è sempre prevedibile. Un tag che ritieni sia un modificatore di stile potrebbe, invece, essere vocalizzato. Testa sempre una nuova combinazione di tag o prompt per verificarne il comportamento prima di distribuirlo in produzione.