Audio natif de l'API Gemini 2.5 Flash Live

Gemini 2.5 Flash avec les fonctionnalités audio natives de l'API Live intègre notre fonctionnalité audio native de pointe pour l'API Live. En plus des fonctionnalités standards de l'API Live, ce modèle Preview inclut les éléments suivants :

  • Qualité audio améliorée : profitez d'une qualité audio considérablement améliorée qui donne l'impression de parler à une personne.
  • Qualité et adaptabilité vocales améliorées : l'audio natif de l'API Live offre des interactions vocales plus riches et plus naturelles avec 30 voix HD dans 24 langues.
  • Découvrez l'audio proactif : Lorsque l'audio proactif est activé, le modèle ne répond que lorsque c'est pertinent. Le modèle génère des transcriptions textuelles et des réponses audio de manière proactive uniquement pour les requêtes adressées à l'appareil. Il ne répond pas aux requêtes non adressées à l'appareil.
  • Découvrez le dialogue affectif : les modèles utilisant l'audio natif de l'API Live peuvent comprendre les expressions émotionnelles des utilisateurs et y répondre de manière appropriée pour des conversations plus nuancées.
  • Interruption améliorée : interrompez Gemini de manière plus naturelle et fiable, même dans des environnements bruyants.
  • Appel de fonctions robuste : nous avons amélioré le taux de déclenchement, ce qui permet à Gemini d'exécuter avec succès les fonctions que vous définissez pour prendre en charge vos cas d'utilisation.
  • Transcription précise : la précision de la transcription audio en texte a été considérablement améliorée.
  • Compatibilité multilingue fluide : parlez à Gemini dans plusieurs langues, et il passera de l'une à l'autre sans effort, sans aucune préconfiguration. La langue n'est plus une barrière.

Pour en savoir plus sur l'API Live, consultez les ressources suivantes :

Essayer dans Vertex AI

ID du modèle gemini-live-2.5-flash-preview-native-audio-09-2025
Entrées et sorties acceptées
  • Entrées :
    texte, audio, vidéo
  • Sorties :
    texte, audio
Limites de jetons
  • Nombre maximal de jetons d'entrée : 128 000
  • Nombre maximal de jetons de sortie : 64 000
  • Fenêtre de contexte : 32 000 (par défaut), extensible à 128 000
Capacités
Types d'utilisation
Spécifications techniques
Vidéo
  • Résolution standard : 768 x 768
  • Types MIME compatibles :
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Durée maximale de la conversation : 10 minutes par défaut, extensibles.
  • Format audio d'entrée requis : Audio PCM 16 bits brut à 16 kHz, little-endian
  • Format audio de sortie requis : Audio PCM 16 bits brut à 24 kHz, little-endian
  • Types MIME compatibles :
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Paramètres par défaut
  • Sensibilité du début du contenu vocal : faible
  • Sensibilité de la fin du contenu vocal : élevée
  • Préfixe de remplissage : 0
  • Taille maximale du contexte : 128 Ko
Régions où le service est disponible

Disponibilité du modèle

  • États-Unis
    • us-central1
Pour en savoir plus, consultez Résidence des données.
Date limite des connaissances Janvier 2025
Versions
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Étape de lancement : version Preview publique
    • Date de disponibilité : 18 septembre 2025
  • gemini-live-2.5-flash-preview-native-audio
    • Étape de lancement : version Preview publique
    • Date de disponibilité : 17 juin 2025
    • Date d'arrêt : 18 octobre 2025
Contrôles de sécurité
Pour en savoir plus, consultez Contrôles de sécurité.
Langues disponibles Consultez Langues acceptées.
Tarifs Voir les tarifs