Réglage audio

Cette page fournit les conditions préalables et des instructions détaillées pour affiner les modèles Gemini sur des données audio, à l'aide de l'apprentissage supervisé.

Cas d'utilisation

Le réglage des modèles audio permet d'améliorer leurs performances en les adaptant à des besoins spécifiques. Cela peut impliquer d'améliorer la reconnaissance vocale pour tenir compte de différents accents locaux, d'affiner la classification des genres musicaux, d'optimiser la détection des événements sonores, de personnaliser la génération audio, de s'adapter aux environnements bruyants, d'améliorer la qualité audio et de personnaliser les expériences audio. Voici quelques cas d'utilisation courants du réglage audio :

Assistants vocaux améliorés :
- Commande vocale de repas : développez des systèmes à commande vocale pour commander et livrer des repas facilement.
Analyse de contenu audio :
- Transcription automatique : générez des transcriptions très précises, même dans des environnements bruyants.
- Synthèse audio : résumez les points clés de podcasts ou de livres audio.
- Classification musicale : classez des morceaux musicaux par catégories en fonction de leur genre, de leur humeur ou d'autres caractéristiques.
Accessibilité et technologies d'assistance :
- Sous-titres en temps réel : fournissez des sous-titres en direct pour des événements ou des appels vidéo.
- Applications à commande vocale : développez des applications entièrement pilotées par la voix.
- Apprentissage des langues : créez des outils qui fournissent des commentaires personnalisés sur la prononciation.

Limites

Modèles Gemini 2.5

Spécification	Valeur
Durée audio maximale par exemple	60 minutes
Nombre maximal de fichiers audio par exemple	1
Taille maximale du fichier audio	100 Mo

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Spécification	Valeur
Durée audio maximale par exemple	60 minutes
Nombre maximal de fichiers audio par exemple	1
Taille maximale du fichier audio	100 Mo

Pour en savoir plus sur les exigences concernant les échantillons audio, consultez la page Compréhension audio (parole uniquement).

Format de l'ensemble de données

Le fileUri de votre ensemble de données peut être l'URI d'un fichier dans un bucket Cloud Storage, ou une URL HTTP ou HTTPS accessible au public.

Pour voir l'exemple de format générique, consultez Exemple d'ensemble de données pour Gemini.

Voici un exemple d'ensemble de données audio.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

Étapes suivantes

Pour en savoir plus sur le modèle Gemini de compréhension audio, consultez Compréhension audio (parole uniquement).
Pour commencer à régler vos modèles, consultez la section Régler des modèles Gemini à l'aide de l'affinage supervisé.
Pour savoir comment utiliser le réglage supervisé dans une solution qui crée une base de connaissances d'IA générative, consultez Solution de démarrage rapide : base de connaissances d'IA générative.

Réglage audio Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.