Gemini-TTS

Colab-Notebook ausprobieren Notebook auf GitHub ansehen

Gemini-TTS ist die neueste Entwicklung unserer Text-to-Speech-Technologie. Sie geht über die natürliche Sprachwiedergabe hinaus und ermöglicht eine detaillierte Steuerung der generierten Audioausgabe mithilfe von textbasierten Prompts. Mit Gemini-TTS können Sie Sprache von einer oder mehreren Personen aus kurzen Snippets bis hin zu langen Erzählungen synthetisieren. Dabei lassen sich Stil, Akzent, Tempo, Ton und sogar emotionaler Ausdruck präzise festlegen – alles über Prompts in natürlicher Sprache.

Weitere Informationen zu diesem Modell finden Sie in der Console auf der Gemini-TTS-Modellkarte im Model Garden (über den Tab Media Studio).

Gemini-TTS in Vertex AI (Vertex AI Studio) testen

Gemini-TTS-Funktionen werden von folgenden Versionen unterstützt:

  • gemini-2.5-flash-tts: Gemini 2.5 Flash TTS eignet sich gut für kostengünstige TTS-Anwendungen für den Alltag.

  • gemini-2.5-pro-tts: Gemini 2.5 Pro TTS eignet sich gut für die kontrollierbare Sprachgenerierung (TTS) und für die hochwertige Bearbeitung komplexer Prompts.

Modell Optimiert für Eingabemodalität Ausgabemodalität Einzelner Sprecher Mehrere Sprecher
Gemini 2.5 Flash TTS Kostengünstige Audio-Generierung mit geringer Latenz und mit Steuerungsmöglichkeiten für die Sprachausgabe mit einem oder mehreren Sprechern für alltägliche Anwendungen Text Audio ✔️ ✔️
Gemini 2.5 Pro TTS Umfangreiche Kontrolle strukturierter Workflows wie Podcast-Generierung, Hörbücher, Kundensupport und mehr Text Audio ✔️ ✔️

Zusätzliche Einstellungen und Funktionen:

  1. Natürliche Unterhaltung: Sprachinteraktionen von bemerkenswerter Qualität, angemessener Ausdruck und Prosodie (Rhythmusmuster) werden mit äußerst geringer Latenz bereitgestellt, sodass Sie sich flüssig unterhalten können.

  2. Stilkontrolle: Mit Prompts in natürlicher Sprache können Sie die Art der Kommunikation im Gespräch anpassen, indem Sie bestimmte Akzente vorgeben sowie eine Reihe von Tönen und Ausdrücken generieren, einschließlich eines Flüstertons.

  3. Dynamische Leistung: Diese Modelle können Text zum Leben erwecken und so für ausdrucksstarke Lesungen von Gedichten und Nachrichten sowie für fesselndes Storytelling sorgen. Sie können auch mit bestimmten Emotionen sprechen und auf Wunsch Akzente setzen.

  4. Erweiterte Steuerung von Tempo und Aussprache: Durch die Steuerung der Wiedergabegeschwindigkeit wird die Genauigkeit der Aussprache, auch bei bestimmten Wörtern, verbessert.

Beispiele

model: "gemini-2.5-pro-tts"
prompt: "You are having a casual conversation with a friend. Say the following in a friendly and amused way."
text: "hahah I did NOT expect that. Can you believe it!."
speaker: "Callirhoe"

model: "gemini-2.5-flash-tts"
prompt: "Say the following in a curious way"
text: "OK, so... tell me about this [uhm] AI thing.",
speaker: "Orus"

model: "gemini-2.5-flash-tts"
prompt: "Say the following"
text: "[extremely fast] Availability and terms may vary. Check our website or your local store for complete details and restrictions."
speaker: "Kore"

Informationen zur programmatischen Verwendung dieser Stimmen finden Sie im Abschnitt Gemini-TTS verwenden.

Stimmoptionen

Gemini-TTS bietet eine Vielzahl von Sprachoptionen, die unseren vorhandenen HD-Stimmen von Chirp 3 ähneln, aber jeweils eigene Merkmale haben:

Name Geschlecht Demo
Achernar Weiblich
Achird Männlich
Algenib Männlich
Algieba Männlich
Alnilam Männlich
Aoede Weiblich
Autonoe Weiblich
Callirrhoe Weiblich
Charon Männlich
Despina Weiblich
Enceladus Männlich
Erinome Weiblich
Fenrir Männlich
Gacrux Weiblich
Iapetus Männlich
Kore Weiblich
Laomedeia Weiblich
Leda Weiblich
Orus Männlich
Pulcherrima Weiblich
Puck Männlich
Rasalgethi Männlich
Sadachbia Männlich
Sadaltager Männlich
Schedar Männlich
Sulafat Weiblich
Umbriel Männlich
Vindemiatrix Weiblich
Zephyr Weiblich
Zubenelgenubi Männlich

Verfügbare Sprachen

Gemini-TTS unterstützt die folgenden Sprachen:

Sprache BCP-47-Code Einführungsreife
Arabisch (Ägypten) ar-EG GA
Niederländisch (Niederlande) nl-NL GA
Englisch (Indien) en-IN GA
Englisch (USA) en-US GA
Französisch (Frankreich) fr-FR GA
Deutsch (Deutschland) de-DE GA
Hindi (Indien) hi-IN GA
Indonesisch (Indonesien) id-ID GA
Italienisch (Italien) it-IT GA
Japanisch (Japan) ja-JP GA
Koreanisch (Südkorea) ko-KR GA
Marathi (Indien) mr-IN GA
Polnisch (Polen) pl-PL GA
Portugiesisch (Brasilien) pt-BR GA
Rumänisch (Rumänien) ro-RO GA
Russisch (Russland) ru-RU GA
Spanisch (Spanien) es-ES GA
Tamil (Indien) ta-IN GA
Telugu (Indien) te-IN GA
Thailändisch (Thailand) th-TH GA
Türkisch (Türkei) tr-TR GA
Ukrainisch (Ukraine) uk-UA GA
Vietnamesisch (Vietnam) vi-VN GA
Afrikaans (Südafrika) af-ZA Vorschau
Albanisch (Albanien) sq_AL Vorschau
Amharisch (Äthiopien) am-ET Vorschau
Arabisch (Welt) ar-001 Vorschau
Armenisch (Armenien) hy-AM Vorschau
Aserbaidschanisch (Aserbaidschan) az-AZ Vorschau
Bengalisch (Bangladesch) bn-bd Vorschau
Baskisch (Spanien) eu-ES Vorschau
Belarussisch (Belarus) be-BY Vorschau
Bulgarisch (Bulgarien) bg-BG Vorschau
Birmanisch (Myanmar) My-MM Vorschau
Katalanisch (Spanien) ca-ES Vorschau
Cebuano (Philippinen) ceb-PH Vorschau
Chinesisch, Mandarin (China) cmn-cn Vorschau
Chinesisch, Mandarin (Taiwan) cmn-tw Vorschau
Kroatisch (Kroatien) hr-HR Vorschau
Tschechisch (Tschechische Republik) cs-CZ Vorschau
Dänisch (Dänemark) da-DK Vorschau
Englisch (Australien) en-AU Vorschau
Englisch (Vereinigtes Königreich) de-DE Vorschau
Estnisch (Estland) et-EE Vorschau
Philippinisch (Philippinen) fil-PH Vorschau
Finnisch (Finnland) fi-FI Vorschau
Französisch (Kanada) fr-CA Vorschau
Galizisch (Spanien) gl-ES Vorschau
Georgisch (Georgien) ka-GE Vorschau
Griechisch (Griechenland) el-GR Vorschau
Gujarati (Indien) gu-IN Vorschau
Haitianisches Kreolisch (Haiti) ht-HT Vorschau
Hebräisch (Israel) he-IL Vorschau
Ungarisch (Ungarn) hu-HU Vorschau
Isländisch (Island) is-IS Vorschau
Javanisch (Java) jv-JV Vorschau
Kannada (Indien) kn-IN Vorschau
Konkani (Indien) kok-in Vorschau
Lao (Laos) lo-LA Vorschau
Lateinisch (Vatikanstadt) la-VA Vorschau
Lettisch (Lettland) lv-LV Vorschau
Litauisch (Litauen) lt-IT Vorschau
Luxemburgisch (Luxemburg) lb-LU Vorschau
Mazedonisch (Nordmazedonien) mk_MK Vorschau
Maithili (Indien) mai-IN Vorschau
Malagasy (Madagaskar) mg-MG Vorschau
Malaiisch (Malaysia) ms-MY Vorschau
Malayalam (Indien) ml-IN Vorschau
Mongolisch (Mongolei) mn-MN Vorschau
Nepalesisch (Nepal) ne-NP Vorschau
Norwegisch (Bokmål) (Norwegen) nb-NO Vorschau
Norwegisch (Nynorsk) (Norwegen) nn-NO Vorschau
Oriya (Indien) or-IN Vorschau
Paschtu (Afghanistan) ps-AF Vorschau
Persisch (Iran) fa-IR Vorschau
Portugiesisch (Portugal) pt-PT Vorschau
Panjabi (Indien) pa-IN Vorschau
Serbisch (Serbien) sr-RS Vorschau
Sindhi (Indien) sd-IN Vorschau
Singhalesisch (Sri Lanka) si-LK Vorschau
Slowakisch (Slowakei) sk-SK Vorschau
Slowenisch (Slowenien) sl-SI Vorschau
Spanisch (Lateinamerika) es-419 Vorschau
Spanisch (Mexiko) es-MX Vorschau
Swahili (Kenia) sw-KE Vorschau
Schwedisch (Schweden) sv-SE Vorschau
Urdu (Pakistan) ur-PK Vorschau

Regionale Verfügbarkeit

Gemini-TTS-Modelle sind in den folgenden Regionen von Google Cloud verfügbar:

Zone vonGoogle Cloud Einführungsreife
global GA

Unterstützte Ausgabeformate

Das Standardantwortformat ist LINEAR16. Weitere unterstützte Formate sind:

API-Methode Format
batch ALAW, MULAW, MP3, OGG_OPUS und PCM
streaming Nicht unterstützt

Gemini-TTS verwenden

Hier erfahren Sie, wie Sie mit Gemini-TTS-Modellen Sprache von einer einzelnen Person und von mehreren Personen synthetisieren.

Hinweise

Bevor Sie Text-to-Speech verwenden können, müssen Sie die API in derGoogle Cloud Console aktivieren. Gehen Sie dazu so vor:

  1. Text-to-Speech für ein Projekt aktivieren
  2. Prüfen, ob die Abrechnung für Text-to-Speech aktiviert ist
  3. Richten Sie die Authentifizierung für Ihre Entwicklungsumgebung ein.

Projekt in Google Cloud einrichten

  1. Melden Sie sich bei der Google Cloud Console an.

  2. Rufen Sie die Seite zur Projektauswahl auf.

    Sie können entweder ein vorhandenes Projekt auswählen oder ein neues erstellen. Weitere Informationen zum Erstellen eines Projekts finden Sie in der Google Cloud -Dokumentation.

  3. Wenn Sie ein neues Projekt erstellen, wird eine Meldung angezeigt, in der Sie aufgefordert werden, ein Rechnungskonto zu verknüpfen. Wenn Sie ein bereits vorhandenes Projekt verwenden, muss die Abrechnung aktiviert sein.

    Informationen dazu, wie Sie prüfen, ob die Abrechnung für Ihr Projekt aktiviert ist

  4. Nachdem Sie ein Projekt ausgewählt und mit einem Rechnungskonto verknüpft haben, können Sie die Text-to-Speech API aktivieren. Geben Sie oben auf der Seite in die Leiste Produkte und Ressourcen suchen den Text speech ein. Wählen Sie aus der Liste der Ergebnisse die Cloud Text-to-Speech API aus.

  5. Wenn Sie Text-to-Speech testen möchten, ohne es mit Ihrem Projekt zu verknüpfen, wählen Sie die Option Diese API testen aus. Klicken Sie auf Aktivieren, um die Text-to-Speech API für Ihr Projekt zu aktivieren.

  6. Richten Sie die Authentifizierung für Ihre Entwicklungsumgebung ein. Eine Anleitung finden Sie unter Authentifizierung für Text-to-Speech einrichten.

Synchrone Sprachsynthese mit einer Stimme durchführen

Python

# google-cloud-texttospeech minimum version 2.29.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize(prompt: str, text: str, output_filepath: str = "output.mp3"):
    """Synthesizes speech from the input text and saves it to an MP3 file.

    Args:
        prompt: Styling instructions on how to synthesize the content in
          the text field.
        text: The text to synthesize.
        output_filepath: The path to save the generated audio file.
          Defaults to "output.mp3".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    # Select the voice you want to use.
    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        name="Charon",  # Example voice, adjust as needed
        model_name="gemini-2.5-pro-tts"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # Perform the text-to-speech request on the text input with the selected
    # voice parameters and audio file type.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # The response's audio_content is binary.
    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following in a curious way",
    "text": "OK, so... tell me about this [uhm] AI thing."
  },
  "voice": {
    "languageCode": "en-us",
    "name": "Kore",
    "model_name": "gemini-2.5-flash-tts"
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16"
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Synchrone Sprachsynthese mit mehreren Sprechern mit Freiformtext-Eingabe durchführen

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_freeform(
    prompt: str,
    text: str,
    output_filepath: str = "output_non_turn_based.wav",
):
    """Synthesizes speech from non-turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        text: The text to synthesize, containing speaker aliases to indicate
          different speakers. Example: "Sam: Hi Bob!\nBob: Hi Sam!"
        output_filepath: The path to save the generated audio file. Defaults to
          "output_non_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(text=text, prompt=prompt)

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "text": "Sam: Hi Bob, how are you?\\nBob: I am doing well, and you?"
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Synchrone Sprachsynthese mit mehreren Sprechern mit strukturierter Texteingabe durchführen

Mit der Funktion „Mehrere Sprecher mit strukturierter Texteingabe“ kann Text auf intelligente Weise und menschenähnlich verbalisiert werden. Diese Art von Eingabe ist beispielsweise für Adressen und Datumsangaben nützlich. Bei der Eingabe von Freitext wird der Text genau so gesprochen, wie er geschrieben wurde.

Python

# google-cloud-texttospeech minimum version 2.31.0 is required.

import os
from google.cloud import texttospeech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")

def synthesize_multispeaker_structured(
    prompt: str,
    turns: list[texttospeech.MultiSpeakerMarkup.Turn],
    output_filepath: str = "output_turn_based.wav",
):
    """Synthesizes speech from turn-based input and saves it to a WAV file.

    Args:
        prompt: Styling instructions on how to synthesize the content in the
          text field.
        turns: A list of texttospeech.MultiSpeakerMarkup.Turn objects representing
          the dialogue turns.
        output_filepath: The path to save the generated audio file. Defaults to
          "output_turn_based.wav".
    """
    client = texttospeech.TextToSpeechClient()

    synthesis_input = texttospeech.SynthesisInput(
        multi_speaker_markup=texttospeech.MultiSpeakerMarkup(turns=turns),
        prompt=prompt,
    )

    multi_speaker_voice_config = texttospeech.MultiSpeakerVoiceConfig(
        speaker_voice_configs=[
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker1",
                speaker_id="Kore",
            ),
            texttospeech.MultispeakerPrebuiltVoice(
                speaker_alias="Speaker2",
                speaker_id="Charon",
            ),
        ]
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US",
        model_name="gemini-2.5-pro-tts",
        multi_speaker_voice_config=multi_speaker_voice_config,
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
    )

    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    with open(output_filepath, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file: {output_filepath}")

CURL

# Make sure to install gcloud cli, and sign in to your project.
# Make sure to use your PROJECT_ID value.
# The available models are gemini-2.5-flash-tts and gemini-2.5-pro-tts.
# To parse the JSON output and use it directly see the last line of the command.
# Requires JQ and ffplay library to be installed.
# google-cloud-texttospeech minimum version 2.31.0 is required.
PROJECT_ID=YOUR_PROJECT_ID
curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "x-goog-user-project: $PROJECT_ID" \
  -H "Content-Type: application/json" \
-d '{
  "input": {
    "prompt": "Say the following as a conversation between friends.",
    "multiSpeakerMarkup": {
      "turns": [
        {
          "speaker": "Sam",
          "text": "Hi Bob, how are you?"
        },
        {
          "speaker": "Bob",
          "text": "I am doing well, and you?"
        }
      ]
    }
  },
  "voice": {
    "languageCode": "en-us",
    "modelName": "gemini-2.5-flash-tts",
    "multiSpeakerVoiceConfig": {
      "speakerVoiceConfigs": [
        {
          "speakerAlias": "Sam",
          "speakerId": "Kore"
        },
        {
          "speakerAlias": "Bob",
          "speakerId": "Charon"
        }
      ]
    }
  },
  "audioConfig": {
    "audioEncoding": "LINEAR16",
    "sampleRateHertz": 24000
  }
}' \
  "https://texttospeech.googleapis.com/v1/text:synthesize" \
  | jq -r '.audioContent' | base64 -d | ffplay - -autoexit

Sprachsynthese in Media Studio durchführen

Sie können Media Studio in der Google Google Cloud Console verwenden, um mit Text-zu-Sprache-Modellen zu experimentieren. So erhalten Sie eine Benutzeroberfläche, mit der Sie schnell synthetische Audioinhalte generieren und anhören sowie mit verschiedenen Stilvorgaben und Parametern experimentieren können.

  1. Rufen Sie in der Google Google Cloud Console die Seite Vertex AI Studio > Media Studio auf.

    Media Studio

  2. Wählen Sie im Media-Drop-down-Menü Sprache aus.

  3. Geben Sie in das Textfeld den Text ein, der in Sprache synthetisiert werden soll.

  4. Konfigurieren Sie im Bereich Einstellungen die folgenden Einstellungen:

    1. Modell: Wählen Sie das gewünschte TTS-Modell (Text-to-Speech) aus, z. B. Gemini 2.5 Pro TTS. Weitere Informationen zu den verfügbaren Modellen finden Sie unter Text-to-Speech-Modelle.
    2. Stilanweisungen: Optional: Geben Sie einen Textprompt ein, der den ausgewählten Sprechstil, Ton und die emotionale Darstellung beschreibt. So können Sie die Leistung des Modells über die Standard-Narrative hinaus steuern. Beispiel: „Sprich in einem ruhigen, professionellen Ton für eine Dokumentation.“
    3. Sprache: Wählen Sie die Sprache und Region des eingegebenen Texts aus. Das Modell generiert Sprache in der ausgewählten Sprache und mit dem ausgewählten Akzent. Beispiel: Englisch (USA).
    4. Stimme: Wählen Sie eine vordefinierte Stimme für die Erzählung aus. Die Liste enthält die verfügbaren Stimmen für das ausgewählte Modell und die ausgewählte Sprache, z. B. Acherner (weiblich).
  5. Optional: Maximieren Sie den Abschnitt „Erweiterte Optionen“, um technische Audioeinstellungen zu konfigurieren:

    1. Audiocodierung: Wählen Sie die Codierung für die Audioausgabedatei aus. LINEAR16 ist ein verlustfreies, nicht komprimiertes Format, das sich für die Verarbeitung von Audio in hoher Qualität eignet. MULAW ist auch für die Ausgabe von komprimiertem Audio verfügbar.
    2. Audioabtastrate: Wählen Sie die Abtastrate in Hertz (Hz) aus. Dadurch wird die Audioqualität bestimmt. Höhere Werte wie 44.100 Hz stehen für Audio mit höherer Wiedergabetreue, die CD-Qualität entspricht.
    3. Geschwindigkeit: Sie können die Sprechgeschwindigkeit anpassen, indem Sie den Schieberegler bewegen oder einen Wert eingeben. Werte unter 1 verlangsamen die Sprache, Werte über 1 beschleunigen sie. Der Standardwert ist 1.
    4. Lautstärkepegel (dB): Hiermit passen Sie die Lautstärke des ausgegebenen Audiosignals in Dezibel (dB) an. Positive Werte erhöhen die Lautstärke, negative Werte verringern sie. Der Standardwert ist 0.
  6. Klicken Sie rechts neben dem Textfeld auf das Symbol Senden, um die Audioausgabe zu generieren.

  7. Das generierte Audio wird im Mediaplayer angezeigt. Klicken Sie auf die Wiedergabeschaltfläche, um sich die Ausgabe anzuhören. Sie können die Einstellungen weiter anpassen und bei Bedarf neue Versionen generieren.

Tipps für Prompts

Um ansprechende und natürlich klingende Audioinhalte aus Text zu erstellen, müssen die Nuancen der gesprochenen Sprache verstanden und in Skriptform übersetzt werden. Die folgenden Tipps helfen Ihnen, authentisch klingende Skripte zu erstellen, die den gewählten Ton treffen.

Die drei Hebel der Sprachsteuerung

Damit Sie möglichst vorhersagbare und differenzierte Ergebnisse erhalten, müssen alle drei der folgenden Komponenten mit der gewünschten Ausgabe übereinstimmen.

Stil-Prompt Die primäre Quelle für den emotionalen Ton und die Art der Darstellung. Der Prompt legt den Kontext für das gesamte Sprachsegment fest.

  • Beispiel: You are an AI assistant speaking in a friendly and helpful tone.

  • Beispiel: Narrate this in the calm, authoritative tone of a nature documentary narrator.

Textinhalte: Die semantische Bedeutung der Wörter, die Sie synthetisieren. Eine aussagekräftige Formulierung, die emotional mit dem Stil-Prompt übereinstimmt, führt zu viel zuverlässigeren Ergebnissen als neutraler Text.

  • Gut: Ein Prompt für einen ängstlichen Tonfall funktioniert am besten mit Text wie I think someone is in the house.

  • Weniger effektiv: Ein Prompt für einen ängstlichen Ton mit Text wie The meeting is at 4 PM. führt zu mehrdeutigen Ergebnissen.

Markup-Tags Tags in Klammern wie [sigh] eignen sich am besten, um eine bestimmte, lokalisierte Aktion oder Stiländerung einzufügen, nicht um den allgemeinen Ton festzulegen. Sie werden in Kombination mit dem Stil-Prompt und dem Textinhalt verwendet.

Leitfaden zu Markup-Tags

Unsere Untersuchungen haben gezeigt, dass Markierungstags in geschweiften Klammern in einem von drei verschiedenen Modi funktionieren. Wenn Sie ein Tag effektiv verwenden möchten, müssen Sie seinen Modus kennen.

Modus 1: Geräusche

Die Markierung wird durch eine hörbare, nicht sprachliche Vokalisation ersetzt (z.B. ein Seufzer, ein Lachen). Das Tag selbst wird nicht gesprochen. Sie eignen sich hervorragend, um realistische, menschliche Zögerungen und Reaktionen hinzuzufügen.

Tag Verhalten Zuverlässigkeit Anleitung
[sigh] Fügt ein Seufzen ein. Hoch Die emotionale Qualität des Seufzers wird durch den Prompt beeinflusst.
[laughing] Fügt ein Lachen ein. Hoch Die besten Ergebnisse erzielen Sie mit einem spezifischen Prompt. Ein allgemeiner Prompt kann beispielsweise ein Schocklachen hervorrufen, während „Reagiere mit einem amüsierten Lachen“ ein Lachen der Belustigung erzeugt.
[uhm] Fügt ein Zögern ein. Hoch Nützlich, um einen natürlicheren, konversationellen Stil zu erzeugen.

Modus 2: Stilmodifikatoren

Das Markup wird nicht gesprochen, sondern es wird die Wiedergabe der nachfolgenden Sprache angepasst. Umfang und Dauer der Änderung können variieren.

Tag Verhalten Zuverlässigkeit Anleitung
[sarcasm] Verleiht dem nachfolgenden Ausdruck einen sarkastischen Ton. Hoch Dieses Tag ist ein leistungsstarker Modifikator. Es zeigt, dass abstrakte Konzepte die Ausgabe des Modells erfolgreich steuern können.
[robotic] Dadurch klingt die nachfolgende Sprache roboterhaft. Hoch Der Effekt kann sich über einen ganzen Begriff erstrecken. Ein unterstützender Style-Prompt (z.B. „Sag das auf roboterhafte Weise“ ist weiterhin empfehlenswert, um die besten Ergebnisse zu erzielen.
[shouting] Erhöht die Lautstärke der nachfolgenden Sprache. Hoch Am effektivsten ist die Funktion, wenn sie mit einem passenden Stil-Prompt kombiniert wird, z.B. „Schrei diesen nächsten Teil“) und Text, der darauf hindeutet, dass geschrien wird.
[whispering] Verringert die Lautstärke der nachfolgenden Sprache. Hoch Die besten Ergebnisse werden erzielt, wenn auch der Stil-Prompt explizit ist (z.B. „flüstere diesen Teil jetzt so leise wie möglich“).
[extremely fast] Erhöht die Geschwindigkeit der nachfolgenden Sprache. Hoch Ideal für Haftungsausschlüsse oder schnelle Dialoge. Es ist nur minimale Unterstützung für Prompts erforderlich.

Modus 3: Gesprochenes Markup (Adjektive)

Das Markup-Tag selbst wird als Wort gesprochen und beeinflusst gleichzeitig den Ton des gesamten Satzes. Dieses Verhalten gilt in der Regel für emotionale Adjektive.

Warnung: Da das Tag selbst gesprochen wird, ist dieser Modus für die meisten Anwendungsfälle wahrscheinlich eine unerwünschte Nebenwirkung. Verwenden Sie stattdessen den Stil-Prompt, um diese emotionalen Töne festzulegen.

Tag Verhalten Zuverlässigkeit Anleitung
[scared] Das Wort „Angst“ wird gesprochen und der Satz erhält einen ängstlichen Ton. Hoch Die Leistung hängt stark von den Textinhalten ab. Der Satz „Ich habe gerade gehört, wie ein Fenster zerbrochen ist“ führt zu einem wirklich verängstigten Ergebnis. Ein neutraler Begriff führt zu einem „gruseligen“, aber weniger authentischen Ergebnis.
[curious] Das Wort „neugierig“ wird gesprochen und der Satz erhält einen neugierigen Ton. Hoch Verwenden Sie eine fragende Formulierung, um die Intention des Tags zu unterstützen.
[bored] Das Wort „bored“ (gelangweilt) wird gesprochen und der Satz wird gelangweilt und monoton vorgetragen. Hoch Die Funktion eignet sich am besten für alltägliche oder sich wiederholende Texte.

Modus 4: Pacing und Pausen

Mit diesen Tags wird Stille in das generierte Audio eingefügt. So haben Sie die Möglichkeit, Rhythmus, Timing und Tempo genau zu steuern. Durch Standard-Satzzeichen (Kommas, Punkte, Semikolons) werden ebenfalls natürliche Pausen erzeugt, aber diese Tags bieten eine explizitere Steuerung.

Tag Verhalten Zuverlässigkeit Anleitung
[short pause] Fügt eine kurze Pause ein, ähnlich einem Komma (~250 ms). Hoch Damit können Sie Satzteile oder Listenelemente trennen, um für mehr Klarheit zu sorgen.
[medium pause] Fügt eine Standardpause ein, ähnlich wie bei einem Satzende (~500 ms). Hoch Eignet sich gut, um einzelne Sätze oder Gedanken voneinander zu trennen.
[long pause] Fügt eine längere Pause für einen dramatischen Effekt ein (ca. 1000 ms oder länger). Hoch Für dramatische Timing-Effekte verwenden. Beispiel: „Die Antwort ist… [long pause] … nein.“ Vermeiden Sie eine übermäßige Verwendung, da sie unnatürlich klingen kann.

Wichtige Strategien für zuverlässige Ergebnisse

  • Alle drei Hebel aufeinander abstimmen: Für maximale Vorhersagbarkeit sollten Ihr Stil-Prompt, Ihr Textinhalt und alle Markup-Tags semantisch konsistent sein und auf dasselbe Ziel ausgerichtet sein.

  • Verwenden Sie emotionalen Text. Verlassen Sie sich nicht nur auf Prompts und Tags. Geben Sie dem Modell aussagekräftigen, beschreibenden Text. Das ist besonders wichtig für nuancierte Emotionen wie Sarkasmus, Angst oder Aufregung.

  • Spezifische, detaillierte Prompts schreiben: Je spezifischer Ihr Stil-Prompt ist, desto zuverlässiger ist das Ergebnis. „Reagiere mit einem amüsierten Lachen“ ist besser als nur [laughing]. „Sprich wie ein Radiosprecher aus den 1940er-Jahren“ ist besser als „Sprich altmodisch“.

  • Neue Tags testen und überprüfen Das Verhalten eines neuen oder nicht getesteten Tags ist nicht immer vorhersehbar. Ein Tag, das Sie für einen Stilmodifikator halten, wird möglicherweise ausgesprochen. Testen Sie immer eine neue Tag- oder Prompt-Kombination, um ihr Verhalten zu bestätigen, bevor Sie sie in der Produktion bereitstellen.