Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini-Modellen mithilfe von Audiodaten und beaufsichtigtem Lernen.
Anwendungsfälle
Durch die Abstimmung von Audiomodellen wird ihre Leistung verbessert, da sie an bestimmte Anforderungen angepasst werden. Dazu kann die Verbesserung der Spracherkennung für verschiedene Akzente, die Feinabstimmung der Musikgenre-Klassifizierung, die Optimierung der Erkennung von Geräuschereignissen, die Anpassung der Audioerstellung, die Anpassung an laute Umgebungen, die Verbesserung der Audioqualität und die Personalisierung von Audioerlebnissen gehören. Hier einige häufige Anwendungsfälle für die Audioabstimmung:
Verbesserte Sprachassistenten:
- Sprachgesteuerte Essensbestellung: Entwicklung sprachaktivierter Systeme für die nahtlose Essensbestellung und -lieferung.
Analyse von Audioinhalten:
- Automatische Transkription: Erstellung äußerst präziser Transkripte, auch in lauten Umgebungen.
- Audiozusammenfassung: Zusammenfassung der wichtigsten Punkte aus Podcasts oder Hörbüchern.
- Musikklassifizierung: Kategorisierung von Musik nach Genre, Stimmung oder anderen Merkmalen.
Bedienungshilfen und unterstützende Technologien:
- Untertitel in Echtzeit: Live-Untertitel für Veranstaltungen oder Videoanrufe bereitstellen lassen.
- Sprachgesteuerte Anwendungen: Anwendungen entwickeln, die vollständig per Sprachbefehl gesteuert werden.
- Sprachlernen: Tools erstellen, die personalisiertes Feedback zur Aussprache geben.
Beschränkungen
Gemini 2.5-Modelle
| Spezifikation | Wert |
|---|---|
| Maximale Audiolänge pro Beispiel | 60 Minuten |
| Maximale Anzahl an Audiodateien pro Beispiel | 1 |
| Maximale Größe der Audiodatei | 100MB |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
| Spezifikation | Wert |
|---|---|
| Maximale Audiolänge pro Beispiel | 60 Minuten |
| Maximale Anzahl an Audiodateien pro Beispiel | 1 |
| Maximale Größe der Audiodatei | 100MB |
Weitere Informationen zu den Anforderungen an Audiobeispiele finden Sie auf der Seite Audioverständnis (nur Sprache).
Dataset-Format
Die fileUri für Ihr Dataset kann die URI einer Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.
Im Folgenden finden Sie ein Beispiel für ein Audio-Dataset.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Nächste Schritte
- Weitere Informationen zum Audioverständnismodell von Gemini finden Sie unter Audioverständnis (nur Sprache).
- Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
- Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.