Cette page fournit les conditions préalables et des instructions détaillées pour affiner les modèles Gemini sur des données audio, à l'aide de l'apprentissage supervisé.
Cas d'utilisation
Le réglage des modèles audio permet d'améliorer leurs performances en les adaptant à des besoins spécifiques. Cela peut impliquer d'améliorer la reconnaissance vocale pour tenir compte de différents accents locaux, d'affiner la classification des genres musicaux, d'optimiser la détection des événements sonores, de personnaliser la génération audio, de s'adapter aux environnements bruyants, d'améliorer la qualité audio et de personnaliser les expériences audio. Voici quelques cas d'utilisation courants du réglage audio :
Assistants vocaux améliorés :
- Commande vocale de repas : développez des systèmes à commande vocale pour commander et livrer des repas facilement.
Analyse de contenu audio :
- Transcription automatique : générez des transcriptions très précises, même dans des environnements bruyants.
- Synthèse audio : résumez les points clés de podcasts ou de livres audio.
- Classification musicale : classez des morceaux musicaux par catégories en fonction de leur genre, de leur humeur ou d'autres caractéristiques.
Accessibilité et technologies d'assistance :
- Sous-titres en temps réel : fournissez des sous-titres en direct pour des événements ou des appels vidéo.
- Applications à commande vocale : développez des applications entièrement pilotées par la voix.
- Apprentissage des langues : créez des outils qui fournissent des commentaires personnalisés sur la prononciation.
Limites
Modèles Gemini 2.5
Spécification | Valeur |
---|---|
Durée audio maximale par exemple | 60 minutes |
Nombre maximal de fichiers audio par exemple | 1 |
Taille maximale du fichier audio | 100 Mo |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Spécification | Valeur |
---|---|
Durée audio maximale par exemple | 60 minutes |
Nombre maximal de fichiers audio par exemple | 1 |
Taille maximale du fichier audio | 100 Mo |
Pour en savoir plus sur les exigences concernant les échantillons audio, consultez la page Compréhension audio (parole uniquement).
Format de l'ensemble de données
Le fileUri
de votre ensemble de données peut être l'URI d'un fichier dans un bucket Cloud Storage, ou une URL HTTP ou HTTPS accessible au public.
Pour voir l'exemple de format générique, consultez Exemple d'ensemble de données pour Gemini.
Voici un exemple d'ensemble de données audio.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
Étapes suivantes
- Pour en savoir plus sur le modèle Gemini de compréhension audio, consultez Compréhension audio (parole uniquement).
- Pour commencer à régler vos modèles, consultez la section Régler des modèles Gemini à l'aide de l'affinage supervisé.
- Pour savoir comment utiliser le réglage supervisé dans une solution qui crée une base de connaissances d'IA générative, consultez Solution de démarrage rapide : base de connaissances d'IA générative.