Gemini 2.5 Flash avec l'API Gemini Live

Gemini 2.5 Flash avec les fonctionnalités audio natives de l'API Gemini Live : notre fonctionnalité audio native de pointe pour l'API Gemini Live. En plus des fonctionnalités standards de l'API Gemini Live, ce modèle inclut :

  • Qualité audio améliorée : profitez d'une qualité audio considérablement améliorée qui donne l'impression de parler à une personne.
  • Qualité et adaptabilité vocales améliorées : l'audio natif de l'API Gemini Live offre des interactions vocales plus riches et plus naturelles avec 30 voix HD dans 24 langues.
  • Découvrez l'audio proactif (aperçu) Lorsque l'audio proactif est activé, le modèle ne répond que lorsque c'est pertinent. Le modèle génère des transcriptions textuelles et des réponses audio de manière proactive uniquement pour les requêtes adressées à l'appareil. Il ne répond pas aux requêtes non adressées à l'appareil.
  • Présentation du dialogue affectif : les modèles utilisant l'audio natif de l'API Gemini Live peuvent comprendre les expressions émotionnelles des utilisateurs et y répondre de manière appropriée pour des conversations plus nuancées.
  • Interruption améliorée : interrompez Gemini de manière plus naturelle et fiable, même dans des environnements bruyants.
  • Appel de fonctions robuste : nous avons amélioré le taux de déclenchement, ce qui permet à Gemini d'exécuter avec succès les fonctions que vous définissez pour prendre en charge vos cas d'utilisation.
  • Transcription précise : la précision de la transcription audio en texte a été considérablement améliorée.
  • Compatibilité multilingue fluide : parlez à Gemini dans plusieurs langues, et il passera de l'une à l'autre sans effort et sans aucune préconfiguration. La langue n'est plus une barrière.

Pour en savoir plus sur l'API Gemini Live, consultez les ressources suivantes :

Live 2.5 Flash Native Audio

Essayer dans Vertex AI

ID du modèle gemini-live-2.5-flash-native-audio
Entrées et sorties acceptées
  • Entrées :
    texte, images, audio, vidéo
  • Sorties :
    texte, audio
Limites de jetons
  • Nombre maximal de jetons d'entrée : 32 000 (par défaut), extensible à 128 000
  • Nombre maximal de jetons de sortie : 64 000
Capacités
Types d'utilisation
Spécifications techniques
Images
  • Nombre maximal d'images par prompt : 3 000
  • Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo
  • Taille maximale par fichier depuis Google Cloud Storage : 30 Mo
  • Types MIME compatibles :
    image/png, image/jpeg, image/webp, image/heic, image/heif
Vidéo
  • Résolution standard : 768 x 768
  • Types MIME compatibles :
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Durée maximale de la conversation : 10 minutes par défaut, extensibles.
  • Format audio d'entrée requis : Audio PCM 16 bits brut à 16 kHz, little-endian
  • Format audio de sortie requis : Audio PCM 16 bits brut à 24 kHz, little-endian
  • Types MIME compatibles :
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Paramètres par défaut
  • Sensibilité du début du contenu vocal : faible
  • Sensibilité de la fin du contenu vocal : élevée
  • Préfixe de remplissage : 0
  • Taille maximale du contexte : 128 Ko
Régions où le service est disponible

Disponibilité du modèle

  • États-Unis
    • us-central1
    • us-east1
    • us-east4
    • us-east5
    • us-south1
    • us-west1
    • us-west4
  • Europe
    • europe-central2
    • europe-north1
    • europe-southwest1
    • europe-west1
    • europe-west4
    • europe-west8
Pour en savoir plus, consultez Déploiements et points de terminaison.
Versions
  • gemini-live-2.5-flash-native-audio
    • Étape de lancement : disponibilité générale
    • Date de disponibilité : 12 décembre 2025
    • Date d'arrêt : 13 décembre 2026
Contrôles de sécurité
Prédiction en ligne
  • Résidence des données (au repos) Disponible
  • Clés de chiffrement gérées par le client (CMEK) Non disponible
  • VPC Service Controls Disponible
  • Access Transparency (AXT) Disponible
Pour en savoir plus, consultez Contrôles de sécurité.
Langues disponibles Consultez Langues acceptées.
Tarifs Voir les tarifs

Aperçu audio natif Live 2.5 Flash

Essayer dans Vertex AI

ID du modèle gemini-live-2.5-flash-preview-native-audio-09-2025
Entrées et sorties acceptées
  • Entrées :
    texte, images, audio, vidéo
  • Sorties :
    texte, audio
Limites de jetons
  • Nombre maximal de jetons d'entrée : 128 000
  • Nombre maximal de jetons de sortie : 64 000
  • Fenêtre de contexte : 32 000 (par défaut), extensible à 128 000
Capacités
Types d'utilisation
Spécifications techniques
Images
  • Nombre maximal d'images par prompt : 3 000
  • Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo
  • Taille maximale par fichier depuis Google Cloud Storage : 30 Mo
  • Types MIME compatibles :
    image/png, image/jpeg, image/webp, image/heic, image/heif
Vidéo
  • Résolution standard : 768 x 768
  • Types MIME compatibles :
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Durée maximale de la conversation : 10 minutes par défaut, extensibles.
  • Format audio d'entrée requis : Audio PCM 16 bits brut à 16 kHz, little-endian
  • Format audio de sortie requis : Audio PCM 16 bits brut à 24 kHz, little-endian
  • Types MIME compatibles :
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Paramètres par défaut
  • Sensibilité du début du contenu vocal : faible
  • Sensibilité de la fin du contenu vocal : élevée
  • Préfixe de remplissage : 0
  • Taille maximale du contexte : 128 Ko
Régions où le service est disponible

Disponibilité du modèle

  • États-Unis
    • us-central1
Pour en savoir plus, consultez Déploiements et points de terminaison.
Date limite des connaissances Août 2025
Versions
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • Étape de lancement : version Preview publique
    • Date de disponibilité : 25 septembre 2025
Contrôles de sécurité
Pour en savoir plus, consultez Contrôles de sécurité.
Langues disponibles Consultez Langues acceptées.
Tarifs Voir les tarifs