Audiooptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini-Modellen mithilfe von Audiodaten und beaufsichtigtem Lernen.

Anwendungsfälle

Durch die Abstimmung von Audiomodellen wird ihre Leistung verbessert, da sie an bestimmte Anforderungen angepasst werden. Dazu kann die Verbesserung der Spracherkennung für verschiedene Akzente, die Feinabstimmung der Musikgenre-Klassifizierung, die Optimierung der Erkennung von Geräuschereignissen, die Anpassung der Audioerstellung, die Anpassung an laute Umgebungen, die Verbesserung der Audioqualität und die Personalisierung von Audioerlebnissen gehören. Hier einige häufige Anwendungsfälle für die Audioabstimmung:

  • Verbesserte Sprachassistenten:

    • Sprachgesteuerte Essensbestellung: Entwicklung sprachaktivierter Systeme für die nahtlose Essensbestellung und -lieferung.
  • Analyse von Audioinhalten:

    • Automatische Transkription: Erstellung äußerst präziser Transkripte, auch in lauten Umgebungen.
    • Audiozusammenfassung: Zusammenfassung der wichtigsten Punkte aus Podcasts oder Hörbüchern.
    • Musikklassifizierung: Kategorisierung von Musik nach Genre, Stimmung oder anderen Merkmalen.
  • Bedienungshilfen und unterstützende Technologien:

    • Untertitel in Echtzeit: Live-Untertitel für Veranstaltungen oder Videoanrufe bereitstellen lassen.
    • Sprachgesteuerte Anwendungen: Anwendungen entwickeln, die vollständig per Sprachbefehl gesteuert werden.
    • Sprachlernen: Tools erstellen, die personalisiertes Feedback zur Aussprache geben.

Beschränkungen

Gemini 2.5-Modelle

Spezifikation Wert
Maximale Audiolänge pro Beispiel 60 Minuten
Maximale Anzahl an Audiodateien pro Beispiel 1
Maximale Größe der Audiodatei 100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Spezifikation Wert
Maximale Audiolänge pro Beispiel 60 Minuten
Maximale Anzahl an Audiodateien pro Beispiel 1
Maximale Größe der Audiodatei 100MB

Weitere Informationen zu den Anforderungen an Audiobeispiele finden Sie auf der Seite Audioverständnis (nur Sprache).

Dataset-Format

Die fileUri für Ihr Dataset kann die URI einer Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

Im Folgenden finden Sie ein Beispiel für ein Audio-Dataset.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Nächste Schritte