Gemini Live API는 Gemini와의 지연 시간이 짧은 실시간 음성 및 동영상 상호작용을 지원합니다. 오디오, 동영상 또는 텍스트의 연속 스트림을 처리하여 즉각적이고 사람과 유사한 음성 응답을 제공합니다. 이렇게 하면 사용자에게 자연스러운 대화형 환경이 제공됩니다.
Vertex AI Studio에서 Gemini Live API 사용해 보기
사용 사례
Gemini Live API는 다음과 같은 다양한 업계에서 실시간 음성 및 동영상 에이전트를 빌드하는 데 사용할 수 있습니다.
- 전자상거래 및 소매: 맞춤형 추천을 제공하는 쇼핑 도우미와 고객 문제를 해결하는 지원 에이전트
- 게임: 대화형 논플레이어 캐릭터(NPC), 인게임 도움말 어시스턴트, 인게임 콘텐츠의 실시간 번역
- 차세대 인터페이스: 로봇 공학, 스마트 글라스, 차량에서 음성 및 동영상 지원 환경
- 의료: 환자 지원 및 교육을 위한 건강 도우미
- 금융 서비스: 자산 관리 및 투자 안내를 위한 AI 자문가
- 교육: 맞춤형 안내와 의견을 제공하는 AI 멘토 및 학습자 도우미
주요 특징
Gemini Live API는 강력한 음성 및 동영상 에이전트를 빌드하기 위한 포괄적인 기능 세트를 제공합니다.
- 높은 오디오 품질: Gemini Live API는 여러 언어로 자연스럽고 사실적인 음성을 제공합니다.
- 다국어 지원: 지원되는 24개 언어로 대화할 수 있습니다.
- 통화 참여: 사용자는 언제든지 모델을 중단하여 응답형 상호작용을 할 수 있습니다.
- 공감형 대화: 사용자의 입력 표현에 맞게 대답 스타일과 어조를 조정합니다.
- 도구 사용: 함수 호출 및 Google 검색과 같은 도구를 통합하여 역동적인 상호작용을 지원합니다.
- 오디오 스크립트 작성: 사용자 입력과 모델 출력의 텍스트 스크립트를 제공합니다.
- 음성 간 번역: (비공개 실험용) 언어 간 지연 시간이 짧은 번역에 최적화되어 있습니다.
- 능동적 오디오: (프리뷰) 모델이 응답하는 시점과 컨텍스트를 제어할 수 있습니다.
기술 사양
다음 표에는 Gemini Live API의 기술 사양이 나와 있습니다.
| 카테고리 | 세부정보 |
|---|---|
| 입력 모달리티 | 오디오(원시 16비트 PCM 오디오, 16kHz, little-endian), 이미지/동영상(JPEG 1FPS), 텍스트 |
| 출력 모달리티 | 오디오(원시 16비트 PCM 오디오, 24kHz, little-endian), 텍스트 |
| 프로토콜 | 스테이트풀 WebSocket 연결(WSS) |
지원되는 모델
다음 모델은 Gemini Live API를 지원합니다. 상호작용 요구사항에 따라 적절한 모델을 선택합니다.
| 모델 ID | 가용성 | 사용 사례 | 주요 특징 |
|---|---|---|---|
gemini-live-2.5-flash-native-audio |
일반 안정화 버전 | 권장사항. 지연 시간이 짧은 음성 에이전트. 원활한 다국어 전환과 감정적 어조를 지원합니다. |
|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
공개 프리뷰 | 실시간 음성 에이전트의 비용 효율성 |
|
gemini-2.5-flash-s2st-exp-11-2025 |
비공개 실험용 | 음성 간 번역. 실시간 통역 작업에 최적화되어 있습니다. |
|
시작하기
개발 환경에 맞는 가이드를 선택하세요.
생성형 AI SDK 튜토리얼
생성형 AI SDK를 사용하여 Gemini Live API에 연결하여 Python 백엔드로 실시간 멀티모달 애플리케이션을 빌드합니다.
WebSocket 튜토리얼
WebSocket을 사용하여 Gemini Live API에 연결하여 JavaScript 프런트엔드와 Python 백엔드로 실시간 멀티모달 애플리케이션을 빌드합니다.
파트너 연동
일부 파트너와 통합하려는 경우 이러한 플랫폼은 이미 WebRTC 프로토콜을 통해 Gemini Live API를 통합하여 실시간 오디오 및 동영상 애플리케이션 개발을 간소화했습니다.
