Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Live API를 사용한 Gemini 2.5 Flash

Gemini Live API 네이티브 오디오가 지원되는 Gemini 2.5 Flash는 Gemini Live API를 위한 최첨단 네이티브 오디오 기능을 제공합니다. 이 모델에는 표준 Gemini Live API 기능 외에도 다음이 포함됩니다.

향상된 오디오 품질: 사람과 대화하는 듯한 오디오 품질을 경험하세요.
향상된 음질 및 적응성: Gemini Live API 네이티브 오디오는 24개 언어의 30개 HD 음성을 통해 더 풍부하고 자연스러운 음성 상호작용을 제공합니다.
능동적 오디오 도입: (프리뷰) 능동적 오디오가 사용 설정되면 관련성이 있을 때만 모델이 응답합니다. 모델은 기기로 향하는 쿼리에 대해서만 텍스트 스크립트와 오디오 응답을 능동적으로 생성하며, 기기로 향하지 않는 쿼리에는 응답하지 않습니다.
공감형 대화 도입: Gemini Live API 네이티브 오디오를 사용하는 모델은 사용자의 감정 표현을 이해하고 적절하게 응답하여 더 섬세한 대화를 나눌 수 있습니다.
향상된 끼어들기: 시끄러운 환경에서도 Gemini의 응답이 끝나기 전에 더 자연스럽고 안정적으로 끼어들 수 있습니다.
강력한 함수 호출: 트리거링 레이트가 개선되어 Gemini가 사용 사례를 지원하기 위해 정의한 함수를 성공적으로 실행할 수 있습니다.
정확한 스크립트 작성: 오디오를 텍스트 스크립트로 작성하는 정확도가 크게 향상되었습니다. 더 나은 결과를 얻으려면 모델이 올바른 언어를 사용하도록 언어 힌트를 제공하세요. 자세한 내용은 세션의 오디오 스크립트 사용 설정을 참고하세요.
원활한 다국어 지원: 여러 언어로 Gemini와 대화할 때, 사전 구성 없이도 언어 간에 원활하게 전환됩니다. 언어는 더 이상 장벽이 아닙니다.

Gemini Live API에 대한 자세한 내용은 다음을 참고하세요.

Live 2.5 Flash 네이티브 오디오

Agent Platform에서 사용해 보기

기술 사양
모델 ID	`gemini-live-2.5-flash-native-audio`
지원되는 입력 및 출력	입력: 텍스트, 이미지, 오디오, 동영상 출력: 텍스트, 오디오
토큰 한도	최대 입력 토큰 수: 128,000 최대 출력 토큰 수: 64,000
최대 동시 실행 세션	1000
기능	지원됨 Google 검색 기반 그라운딩 시스템 안내 함수 호출 Gemini Live API 지원되지 않음 코드 실행 지도 미세 조정 지속적인 조정 선호도 조정 조정 체크포인트 구조화된 출력 사고 암시적 컨텍스트 캐싱 명시적 컨텍스트 캐싱 Chat 자동 완성 콘텐츠 자격 증명 (C2PA)
소비 옵션	지원됨 프로비저닝된 처리량 스탠더드 PayGo 지원되지 않음 Flex PayGo 우선순위 PayGo 일괄 추론
소비 옵션	자세한 내용은 소비 옵션을 참고하세요.
	이미지	프롬프트당 최대 이미지 수: 3,000 인라인 데이터 또는 콘솔을 통한 직접 업로드의 파일당 최대 파일 크기: 7MB Google Cloud Storage의 파일당 최대 파일 크기: 30MB 지원되는 MIME 유형: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	동영상	표준 해상도: 768 x 768 지원되는 MIME 유형: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	오디오	최대 대화 길이: 기본값은 10분이며 연장할 수 있습니다. 필수 오디오 입력 형식: 16kHz의 원시 16비트 PCM 오디오, 리틀 엔디안 필수 오디오 출력 형식: 24kHz의 원시 16비트 PCM 오디오, 리틀 엔디안 지원되는 MIME 유형: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	파라미터 기본값	발화 시작 민감도: 낮음 발화 종료 민감도: 높음 프리픽스 패딩: 0 최대 컨텍스트 크기: 128,000
지원되는 리전
	모델 가용성	미국 us-central1 us-east1 us-east4 us-east5 us-south1 us-west1 us-west4 유럽 europe-central2 europe-north1 europe-southwest1 europe-west1 europe-west4 europe-west8
	자세한 내용은 배포 및 엔드포인트를 참고하세요.
버전	`gemini-live-2.5-flash-native-audio` 출시 단계: 정식 버전 출시일: 2025년 12월 12일 중단일: 2026년 12월 13일
보안 제어
	온라인 예측	데이터 상주 CMEK VPC-SC AXT
	자세한 내용은 보안 제어를 참조하세요.
지원 언어	지원되는 언어를 참고하세요.
가격 책정	가격 책정을 참조하세요.

Live 2.5 Flash 네이티브 오디오 프리뷰

주의: gemini-live-2.5-flash-preview-native-audio-09-2025은 2026년 3월 19일에 지원 중단되고 삭제됩니다. 모든 워크플로를 gemini-live-2.5-flash-native-audio로 마이그레이션합니다.

Agent Platform에서 사용해 보기

기술 사양
모델 ID	`gemini-live-2.5-flash-preview-native-audio-09-2025`
지원되는 입력 및 출력	입력: 텍스트, 이미지, 오디오, 동영상 출력: 텍스트, 오디오
토큰 한도	최대 입력 토큰 수: 128,000 최대 출력 토큰 수: 64,000 컨텍스트 윈도우: 32,000(기본값), 128,000으로 업그레이드 가능
최대 동시 실행 세션	1000
기능	지원됨 Google 검색 기반 그라운딩 시스템 안내 함수 호출 Gemini Live API 지원되지 않음 코드 실행 지도 미세 조정 지속적인 조정 선호도 조정 조정 체크포인트 구조화된 출력 사고 암시적 컨텍스트 캐싱 명시적 컨텍스트 캐싱 Chat 자동 완성 콘텐츠 자격 증명 (C2PA)
소비 옵션	지원됨 프로비저닝된 처리량 스탠더드 PayGo 지원되지 않음 Flex PayGo 우선순위 PayGo 일괄 추론
소비 옵션	자세한 내용은 소비 옵션을 참고하세요.
	이미지	프롬프트당 최대 이미지 수: 3,000 인라인 데이터 또는 콘솔을 통한 직접 업로드의 파일당 최대 파일 크기: 7MB Google Cloud Storage의 파일당 최대 파일 크기: 30MB 지원되는 MIME 유형: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`
	동영상	표준 해상도: 768 x 768 지원되는 MIME 유형: `video/x-flv`, `video/quicktime`, `video/mpeg`, `video/mpegs`, `video/mpg`, `video/mp4`, `video/webm`, `video/wmv`, `video/3gpp`
	오디오	최대 대화 길이: 기본값은 10분이며 연장할 수 있습니다. 필수 오디오 입력 형식: 16kHz의 원시 16비트 PCM 오디오, 리틀 엔디안 필수 오디오 출력 형식: 24kHz의 원시 16비트 PCM 오디오, 리틀 엔디안 지원되는 MIME 유형: `audio/x-aac`, `audio/flac`, `audio/mp3`, `audio/m4a`, `audio/mpeg`, `audio/mpga`, `audio/mp4`, `audio/ogg`, `audio/pcm`, `audio/wav`, `audio/webm`
	파라미터 기본값	발화 시작 민감도: 낮음 발화 종료 민감도: 높음 프리픽스 패딩: 0 최대 컨텍스트 크기: 128,000
지원되는 리전
	모델 가용성	미국 us-central1
	자세한 내용은 배포 및 엔드포인트를 참조하세요.
지식 단절 날짜	2025년 8월
버전	`gemini-live-2.5-flash-preview-native-audio-09-2025` 출시 단계: 공개 프리뷰 출시일: 2025년 9월 25일 중단일: 2026년 3월 19일
지원 언어	지원되는 언어를 참고하세요.
가격 책정	가격 책정을 참고하세요.

Gemini Live API를 사용한 Gemini 2.5 Flash 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

Live 2.5 Flash 네이티브 오디오

Live 2.5 Flash 네이티브 오디오 프리뷰

Gemini Live API를 사용한 Gemini 2.5 Flash