Gemini Live API를 사용한 Gemini 2.5 Flash

Gemini Live API 네이티브 오디오가 지원되는 Gemini 2.5 Flash는 Gemini Live API를 위한 최첨단 네이티브 오디오 기능을 제공합니다. 이 모델에는 표준 Gemini Live API 기능 외에도 다음이 포함됩니다.

  • 향상된 오디오 품질: 사람과 대화하는 듯한 오디오 품질을 경험하세요.
  • 향상된 음질 및 적응성: Gemini Live API 네이티브 오디오는 24개 언어30개 HD 음성을 통해 더 풍부하고 자연스러운 음성 상호작용을 제공합니다.
  • 능동적 오디오 도입: (프리뷰) 능동적 오디오가 사용 설정되면 관련성이 있을 때만 모델이 응답합니다. 모델은 기기로 향하는 쿼리에 대해서만 텍스트 스크립트와 오디오 응답을 능동적으로 생성하며, 기기로 향하지 않는 쿼리에는 응답하지 않습니다.
  • 공감형 대화 도입: Gemini Live API 네이티브 오디오를 사용하는 모델은 사용자의 감정 표현을 이해하고 적절하게 응답하여 더 섬세한 대화를 나눌 수 있습니다.
  • 향상된 끼어들기: 시끄러운 환경에서도 Gemini의 응답이 끝나기 전에 더 자연스럽고 안정적으로 끼어들 수 있습니다.
  • 강력한 함수 호출: 트리거링 레이트가 개선되어 Gemini가 사용 사례를 지원하기 위해 정의한 함수를 성공적으로 실행할 수 있습니다.
  • 정확한 스크립트 작성: 오디오를 텍스트 스크립트로 작성하는 정확도가 크게 향상되었습니다. 더 나은 결과를 얻으려면 모델이 올바른 언어를 사용하도록 언어 힌트를 제공하세요. 자세한 내용은 세션의 오디오 스크립트 사용 설정을 참고하세요.
  • 원활한 다국어 지원: 여러 언어로 Gemini와 대화할 때, 사전 구성 없이도 언어 간에 원활하게 전환됩니다. 언어는 더 이상 장벽이 아닙니다.

Gemini Live API에 대한 자세한 내용은 다음을 참고하세요.

Live 2.5 Flash 네이티브 오디오

Agent Platform에서 사용해 보기

모델 ID gemini-live-2.5-flash-native-audio
지원되는 입력 및 출력
  • 입력:
    텍스트, 이미지, 오디오, 동영상
  • 출력:
    텍스트, 오디오
토큰 한도
  • 최대 입력 토큰 수: 128,000
  • 최대 출력 토큰 수: 64,000
최대 동시 실행 세션

1000

기능
소비 옵션
자세한 내용은 소비 옵션을 참고하세요.
기술 사양
이미지
  • 프롬프트당 최대 이미지 수: 3,000
  • 인라인 데이터 또는 콘솔을 통한 직접 업로드의 파일당 최대 파일 크기: 7MB
  • Google Cloud Storage의 파일당 최대 파일 크기: 30MB
  • 지원되는 MIME 유형:
    image/png, image/jpeg, image/webp, image/heic, image/heif
동영상
  • 표준 해상도: 768 x 768
  • 지원되는 MIME 유형:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
오디오
  • 최대 대화 길이: 기본값은 10분이며 연장할 수 있습니다.
  • 필수 오디오 입력 형식: 16kHz의 원시 16비트 PCM 오디오, 리틀 엔디안
  • 필수 오디오 출력 형식: 24kHz의 원시 16비트 PCM 오디오, 리틀 엔디안
  • 지원되는 MIME 유형:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
파라미터 기본값
  • 발화 시작 민감도: 낮음
  • 발화 종료 민감도: 높음
  • 프리픽스 패딩: 0
  • 최대 컨텍스트 크기: 128,000
지원되는 리전

모델 가용성

  • 미국
    • us-central1
    • us-east1
    • us-east4
    • us-east5
    • us-south1
    • us-west1
    • us-west4
  • 유럽
    • europe-central2
    • europe-north1
    • europe-southwest1
    • europe-west1
    • europe-west4
    • europe-west8
자세한 내용은 배포 및 엔드포인트를 참고하세요.
버전
  • gemini-live-2.5-flash-native-audio
    • 출시 단계: 정식 버전
    • 출시일: 2025년 12월 12일
    • 중단일: 2026년 12월 13일
보안 제어
온라인 예측
  • 데이터 상주
  • CMEK
  • VPC-SC
  • AXT
자세한 내용은 보안 제어를 참조하세요.
지원 언어 지원되는 언어를 참고하세요.
가격 책정 가격 책정을 참조하세요.

Live 2.5 Flash 네이티브 오디오 프리뷰


Agent Platform에서 사용해 보기

모델 ID gemini-live-2.5-flash-preview-native-audio-09-2025
지원되는 입력 및 출력
  • 입력:
    텍스트, 이미지, 오디오, 동영상
  • 출력:
    텍스트, 오디오
토큰 한도
  • 최대 입력 토큰 수: 128,000
  • 최대 출력 토큰 수: 64,000
  • 컨텍스트 윈도우: 32,000(기본값), 128,000으로 업그레이드 가능
최대 동시 실행 세션

1000

기능
소비 옵션
자세한 내용은 소비 옵션을 참고하세요.
기술 사양
이미지
  • 프롬프트당 최대 이미지 수: 3,000
  • 인라인 데이터 또는 콘솔을 통한 직접 업로드의 파일당 최대 파일 크기: 7MB
  • Google Cloud Storage의 파일당 최대 파일 크기: 30MB
  • 지원되는 MIME 유형:
    image/png, image/jpeg, image/webp, image/heic, image/heif
동영상
  • 표준 해상도: 768 x 768
  • 지원되는 MIME 유형:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
오디오
  • 최대 대화 길이: 기본값은 10분이며 연장할 수 있습니다.
  • 필수 오디오 입력 형식: 16kHz의 원시 16비트 PCM 오디오, 리틀 엔디안
  • 필수 오디오 출력 형식: 24kHz의 원시 16비트 PCM 오디오, 리틀 엔디안
  • 지원되는 MIME 유형:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
파라미터 기본값
  • 발화 시작 민감도: 낮음
  • 발화 종료 민감도: 높음
  • 프리픽스 패딩: 0
  • 최대 컨텍스트 크기: 128,000
지원되는 리전

모델 가용성

  • 미국
    • us-central1
자세한 내용은 배포 및 엔드포인트를 참조하세요.
지식 단절 날짜 2025년 8월
버전
  • gemini-live-2.5-flash-preview-native-audio-09-2025
    • 출시 단계: 공개 프리뷰
    • 출시일: 2025년 9월 25일
    • 중단일: 2026년 3월 19일
지원 언어 지원되는 언어를 참고하세요.
가격 책정 가격 책정을 참고하세요.