Gemini 2.5 Flash avec l'API Gemini Live

Gemini 2.5 Flash avec les fonctionnalités audio natives de l'API Gemini Live intègre notre fonctionnalité audio native de pointe pour l'API Gemini Live. En plus des fonctionnalités standards de l'API Gemini Live, ce modèle inclut :

Qualité audio améliorée : profitez d'une qualité audio considérablement améliorée qui donne l'impression de parler avec une personne.
Qualité et adaptabilité vocales améliorées : l'audio natif de l'API Gemini Live offre des interactions vocales plus riches et plus naturelles avec 30 voix HD dans 24 langues.
Découvrez l'audio proactif (aperçu) Lorsque l'audio proactif est activé, le modèle ne répond que lorsque c'est pertinent. Le modèle génère des transcriptions textuelles et des réponses audio de manière proactive uniquement pour les requêtes adressées à l'appareil. Il ne répond pas aux requêtes non adressées à l'appareil.
Présentation du dialogue affectif : les modèles utilisant l'API Gemini Live avec l'audio natif peuvent comprendre les expressions émotionnelles des utilisateurs et y répondre de manière appropriée pour des conversations plus nuancées.
Interruption améliorée : interrompez Gemini de manière plus naturelle et fiable, même dans des environnements bruyants.
Appel de fonctions robuste : nous avons amélioré le taux de déclenchement, ce qui permet à Gemini d'exécuter correctement les fonctions que vous définissez pour répondre à vos cas d'utilisation.
Transcription précise : la précision de la transcription audio en texte a été considérablement améliorée.
Compatibilité multilingue fluide : parlez à Gemini dans plusieurs langues, et il passera de l'une à l'autre sans effort, sans aucune préconfiguration. La langue n'est plus une barrière.

Pour en savoir plus sur l'API Gemini Live, consultez les ressources suivantes :

Live 2.5 Flash Native Audio

Essayer dans Vertex AI

Spécifications techniques
ID du modèle	`gemini-live-2.5-flash-native-audio`
Entrées et sorties acceptées	Entrées : texte, images, audio, vidéo Sorties : texte, audio
Limites de jetons	Nombre maximal de jetons d'entrée : 32 000 (par défaut), extensible à 128 000 Nombre maximal de jetons de sortie : 64 000
Nombre maximal de sessions simultanées	1000
Capacités	Disponible Ancrage avec la recherche Google Instructions système Appel de fonction API Gemini Live Non compatible Exécution de code Réglage Sortie structurée Raisonnement Mise en cache implicite du contexte Mise en cache explicite du contexte Moteur Vertex AI RAG Complétions de conversation
Types d'utilisation	Compatible Non compatible Débit provisionné Standard PayGo Prédiction par lot
	Images	Nombre maximal d'images par prompt : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Types MIME compatibles : `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vidéo	Résolution standard : 768 x 768 Types MIME compatibles : `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Durée maximale de la conversation : 10 minutes par défaut, extensibles. Format audio d'entrée requis : Audio PCM 16 bits brut à 16 kHz, little-endian Format audio de sortie requis : Audio PCM 16 bits brut à 24 kHz, little-endian Types MIME compatibles : `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Paramètres par défaut	Sensibilité du début du contenu vocal : faible Sensibilité de la fin du contenu vocal : élevée Préfixe de remplissage : 0 Taille maximale du contexte : 128 k
Régions où le service est disponible
	Disponibilité du modèle	États-Unis us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 Europe europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	Pour en savoir plus, consultez Déploiements et points de terminaison.
Versions	`gemini-live-2.5-flash-native-audio` Étape de lancement : disponibilité générale Date de disponibilité : 12 décembre 2025 Date d'arrêt : 13 décembre 2026
Contrôles de sécurité
	Prédiction en ligne	Résidence des données CMEK VPC-SC AXT
	Pour en savoir plus, consultez Contrôles de sécurité.
Langues disponibles	Consultez Langues acceptées.
Tarifs	Voir les tarifs

Aperçu audio natif Live 2.5 Flash

Essayer dans Vertex AI

Spécifications techniques
ID du modèle	`gemini-live-2.5-flash-preview-native-audio-09-2025`
Entrées et sorties acceptées	Entrées : texte, images, audio, vidéo Sorties : texte, audio
Limites de jetons	Nombre maximal de jetons d'entrée : 128 000 Nombre maximal de jetons de sortie : 64 000 Fenêtre de contexte : 32 000 (par défaut), extensible à 128 000
Nombre maximal de sessions simultanées	1000
Capacités	Disponible Ancrage avec la recherche Google Instructions système Appel de fonction API Gemini Live Non compatible Exécution de code Réglage Sortie structurée Raisonnement Mise en cache implicite du contexte Mise en cache explicite du contexte Moteur Vertex AI RAG Complétions de conversation
Types d'utilisation	Disponible Débit provisionné Non compatible Standard PayGo Prédiction par lot
	Images	Nombre maximal d'images par prompt : 3 000 Taille maximale par fichier pour les données intégrées ou les importations directes à l'aide de la console : 7 Mo Taille maximale par fichier depuis Google Cloud Storage : 30 Mo Types MIME compatibles : `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	Vidéo	Résolution standard : 768 x 768 Types MIME compatibles : `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	Audio	Durée maximale de la conversation : 10 minutes par défaut, extensibles. Format audio d'entrée requis : Audio PCM 16 bits brut à 16 kHz, little-endian Format audio de sortie requis : Audio PCM 16 bits brut à 24 kHz, little-endian Types MIME compatibles : `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	Paramètres par défaut	Sensibilité du début du contenu vocal : faible Sensibilité de la fin du contenu vocal : élevée Préfixe de remplissage : 0 Taille maximale du contexte : 128 k
Régions où le service est disponible
	Disponibilité du modèle	États-Unis us-central1
	Pour en savoir plus, consultez Déploiements et points de terminaison.
Date limite des connaissances	Août 2025
Versions	`gemini-live-2.5-flash-preview-native-audio-09-2025` Étape de lancement : version Preview publique Date de disponibilité : 25 septembre 2025
Contrôles de sécurité
Contrôles de sécurité	Pour en savoir plus, consultez Contrôles de sécurité.
Langues disponibles	Consultez Langues acceptées.
Tarifs	Voir les tarifs

Gemini 2.5 Flash avec l'API Gemini Live Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Live 2.5 Flash Native Audio

Aperçu audio natif Live 2.5 Flash

Gemini 2.5 Flash avec l'API Gemini Live