Google은 AI 기술을 사용하여 콘텐츠를 사용자의 기본 언어로 번역합니다. AI 번역에는 오류가 있을 수 있습니다.

에이전트 AI 사용 사례: 양방향 멀티모달 라이브 스트리밍 사용 설정

Last reviewed 2026-04-06 UTC

이 문서에서는 Google Cloud에서 실시간 양방향 멀티 에이전트 AI 시스템을 위한 개략적인 아키텍처를 제공합니다. 이 시스템은 사용자가 복잡한 구성요소 조립, 장비 오작동 진단, 복잡한 수리 절차 탐색과 같은 기술 작업을 완료하도록 지원합니다. 에이전트 AI 시스템은 멀티모달 데이터의 지속적인 양방향 스트림을 통해 근거가 있는 기술 안내와 자동화된 안전 모니터링을 제공합니다.

이 문서의 주요 대상은 클라우드에서 AI 인프라와 애플리케이션을 빌드하고 관리하는 설계자, 개발자, 관리자입니다. 이 문서에서는 AI 에이전트와 모델에 대한 기본적인 이해가 있다고 가정합니다. 이 문서에서는 AI 에이전트 설계 및 코딩에 관한 구체적인 안내를 제공하지 않습니다.

이 문서의 배포 섹션에는 멀티 에이전트 AI 시스템을 빌드하고 배포하는 방법을 배우는 데 사용할 수 있는 코드 샘플이 나열되어 있습니다.

아키텍처

다음 다이어그램은 멀티 에이전트 AI 시스템을 사용하여 실시간 양방향 멀티모달 데이터 스트리밍을 지원하는 아키텍처를 간략하게 보여줍니다.

양방향 멀티모달 데이터 스트리밍을 지원하는 멀티 에이전트 AI 시스템의 고수준 아키텍처

위 다이어그램의 아키텍처에는 기술 안내와 안전 모니터링이라는 두 가지 워크플로가 있습니다.

기술 안내 워크플로를 통해 사용자는 복잡한 기술 문의에 대한 해설이 포함된 솔루션을 실시간으로 받을 수 있습니다. 이 워크플로는 Gemini Live 모델을 사용하여 멀티모달 스트림을 처리하고 하위 상담사와 협력하여 지식 데이터베이스에서 근거가 있는 제품 정보를 가져옵니다.
안전 모니터링 워크플로는 기술 절차 중에 사용자의 안전을 보장하기 위해 자동 위험 감지를 제공합니다. 이 워크플로는 Gemini를 사용하여 라이브 동영상 세그먼트를 분석하고, 잠재적 위험을 식별하고, 클라이언트 대시보드를 통해 즉각적인 경고를 트리거합니다.

다음 탭에서는 기술 안내 및 안전 모니터링 워크플로를 보여주는 아키텍처 다이어그램을 제공합니다.

기술 안내 워크플로

다음 다이어그램은 기술 안내 워크플로의 상세 아키텍처를 보여줍니다.

위 다이어그램은 다음 데이터 흐름을 보여줍니다.

사용자가 클라이언트 대시보드를 통해 음성 기술 문의를 하여 세션을 시작합니다. 예를 들어 기술자가 카메라를 제어판에 대고 '도와주세요. 깜박이는 빨간색 오류 표시등은 무엇을 의미하나요?'라고 물을 수 있습니다.
클라이언트 대시보드는 프런트엔드와 백엔드 서버 간에 영구 WebSocket 연결을 설정합니다.
WebSocket 메시지는 원시 멀티미디어 데이터를 Blob 객체로 패키징합니다. 에이전트 개발 키트 (ADK) LiveRequestQueue 구성요소는 입력 데이터를 디스패처 에이전트로 지속적으로 스트리밍합니다.
디스패처 에이전트는 기술 안내가 필요한 오디오 또는 시각적 명령어를 감지하고 입력 스트림을 Gemini Live 모델에 전송합니다.
Gemini Live 모델은 원시 데이터를 검색하여 이벤트를 식별합니다. 이벤트는 '조립' 또는 '도움'과 같은 오디오 키워드나 손동작과 같은 시각적 신호입니다.

Gemini는 각 이벤트를 평가하여 사용자의 문의와 관련이 있는지 확인합니다. 예를 들어 손동작이나 필러 단어는 관련성이 없을 수 있으므로 Gemini는 이러한 이벤트를 처리하지 않습니다.
Gemini는 관련 이벤트마다 함수 호출을 사용해 추가 컨텍스트가 필요한지 평가합니다. 추가 컨텍스트가 필요한지 여부에 따라 Gemini 또는 설계사 에이전트가 디스패처 에이전트에게 응답을 다시 보냅니다.
1. 컨텍스트가 더 필요한 경우 Gemini는 아키텍트 에이전트 카드를 조회하여 요청을 구조화하는 방법을 파악합니다.
2. Gemini가 디스패처 에이전트에 구조화된 요청을 보냅니다. 요청에는 제품 유형, 모델 번호, 이벤트 유형, 속성과 같은 이벤트 세부정보가 포함됩니다.
3. 디스패처 에이전트는 Agent2Agent (A2A) 프로토콜을 사용하여 구조화된 요청을 아키텍트 에이전트에 전송합니다.
4. 아키텍트 에이전트가 서버리스 VPC 액세스 커넥터를 통해 쿼리를 전송합니다. 커넥터를 사용하면 에이전트가 이 아키텍처의 스토리지 리소스에 사용되는 가상 프라이빗 클라우드 (VPC) 네트워크의 리소스에 안전하게 액세스할 수 있습니다.
5. 서버리스 VPC 액세스 커넥터는 Memorystore for Redis Cluster에 저장된 캐시 데이터와 상호작용합니다. 캐시된 레이어에서 데이터를 사용할 수 없는 경우 아키텍트 에이전트는 지식 데이터베이스를 호스팅하는 Compute Engine 인스턴스와 상호작용합니다.
6. 아키텍트 에이전트가 데이터 캐시 또는 지식 데이터베이스에서 제품 정보를 수신합니다. 아키텍트 에이전트가 제품 정보를 Gemini에 전송하여 대답을 생성합니다. 예를 들어 '오류 코드 3B: 팬 오작동. 행동 요령: 장애물이 있는지 확인하세요.
7. 아키텍트 에이전트가 제품 정보를 디스패처 에이전트에게 다시 전송합니다.
추가 맥락이 필요하지 않은 경우 Gemini는 사용자의 요청에 직접 대답을 생성합니다.
디스패처 에이전트는 Gemini 또는 아키텍처 에이전트로부터 대답을 수신하고 멀티모달 대답을 생성합니다.
1. Gemini Live 모델과 ADK run_live 함수를 사용하여 기술 솔루션이 포함된 멀티모달 응답을 생성합니다.
2. 응답을 Blob 객체로 저장합니다.
3. 스트리밍 버퍼와 영구 WebSocket 연결을 통해 기술 솔루션을 전송하여 클라이언트 대시보드에 기술 솔루션을 제공합니다.
클라이언트 대시보드는 기술 솔루션에서 Blob 데이터를 추출하여 즉각적인 내레이션 안내를 제공하고 관련 스크립트로 UI를 업데이트합니다. 활성 양방향 스트림이 유지되는 동안 요청 루프가 완료됩니다.

안전 모니터링 워크플로

다음 다이어그램은 안전 모니터링 워크플로의 세부 아키텍처를 보여줍니다.

위 다이어그램은 다음 데이터 흐름을 보여줍니다.

클라이언트 대시보드는 프런트엔드와 백엔드 서버 간에 지속적인 WebSocket 연결을 설정하여 라이브 동영상 스트림을 관찰합니다. WebSocket 메시지는 이 원시 멀티미디어 데이터를 Blob 객체로 패키징하고 ADK LiveRequestQueue 구성요소를 사용하여 스트리밍 버퍼로 지속적으로 전송합니다.
스트리밍 버퍼는 입력 스트림을 연속 백그라운드 루프에서 실행되어 동영상 프레임의 위험을 감지하는 스트리밍 도구로 안내합니다.
스트리밍 도구는 스트리밍 버퍼의 최신 동영상 프레임을 Gemini에 전송합니다.
Gemini는 밝은 빛이나 증기와 같은 위험 요소를 동영상 프레임에서 관찰합니다.
- 위험이 감지되지 않으면 아무 일도 일어나지 않습니다.
- 위험이 감지되면 Gemini가 위험 유형, 속성, 위치를 포함하는 멀티모달 대답을 생성하고 Blob 객체로 저장합니다. Gemini는 위험 경고 응답을 스트리밍 도구로 다시 전송합니다.
스트리밍 도구는 위험 경고 응답을 스트리밍 버퍼로 전달합니다.
스트리밍 버퍼는 영구 WebSocket 연결을 사용하여 기술 솔루션을 클라이언트 대시보드에 제공합니다.
클라이언트 대시보드는 기술 솔루션에서 Blob 데이터를 추출하여 즉시 해설된 안내를 제공하고 관련 스크립트로 UI를 업데이트합니다. 이렇게 하면 활성 양방향 스트림을 유지하면서 요청 루프가 완료됩니다.

사용 제품

이 참조 아키텍처에는 다음과 같은 Google Cloud 제품과 도구가 사용됩니다.

Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
Gemini : Google에서 개발한 멀티모달 AI 모델 제품군입니다.

Gemini Enterprise Agent Platform: 엔터프라이즈급 AI 에이전트를 빌드, 확장, 제어, 최적화할 수 있는 포괄적인 플랫폼입니다.
에이전트 개발 키트 (ADK): AI 에이전트를 개발, 테스트, 배포하는 데 사용되는 도구 및 라이브러리 세트입니다.
Agent2Agent (A2A) 프로토콜: 프로그래밍 언어와 런타임에 관계없이 에이전트 간의 통신과 상호 운용성을 지원하는 개방형 프로토콜입니다.
서버리스 VPC 액세스: 서버리스 환경을 가상 프라이빗 클라우드 네트워크의 리소스에 연결할 수 있는 서비스입니다.
가상 프라이빗 클라우드(VPC): Google Cloud 워크로드에 확장 가능한 전역 네트워킹 기능을 제공하는 가상 시스템입니다. VPC에는 VPC 네트워크 피어링, Private Service Connect, 비공개 서비스 액세스, 공유 VPC가 포함됩니다.
Memorystore for Redis Cluster: Redis용 완전 관리형 인메모리 데이터 스토어 서비스입니다.
Compute Engine: Google 인프라에서 가상 머신을 만들고 실행할 수 있는 안전하고 맞춤설정 가능한 컴퓨팅 서비스입니다.

프레임워크, 에이전트 런타임, 도구, 메모리, 설계 패턴 등 에이전트 AI 시스템의 대체 구성요소를 선택하는 방법에 관한 자세한 내용은 에이전트 AI 아키텍처 구성요소 선택을 참고하세요.

사용 사례

이 참조 아키텍처는 연속적인 양방향 멀티모달 데이터 스트림의 실시간 합성이 필요한 사용 사례를 위해 설계되었습니다. 다음은 이 문서에 설명된 아키텍처의 사용 사례입니다.

산업 제조 및 현장 유지보수: 스마트 글라스에서 실시간 오디오와 동영상을 처리하는 AI 어시스턴트를 기술자에게 제공하여 복잡한 기계를 핸즈프리로 수리할 수 있도록 지원합니다. 기술자가 AI 어시스턴트와 대화하여 머신 회로도를 가져옵니다. AI 어시스턴트는 제품 문서에 액세스하는 내부 데이터베이스 에이전트를 사용하여 근거가 있는 수리 및 조립 안내를 제공합니다. 동시 백그라운드 비전 도구는 양방향 스트림을 모니터링하여 기술자에게 기계적 위험이나 잘못된 조립 단계를 사전에 경고합니다.
원격 기술 지원: 사용자가 멀티모달 에이전트 AI 시스템과 실시간 휴대전화 카메라 피드를 공유하도록 하여 고객 문제 해결 결과를 개선합니다. 양방향 스트리밍 아키텍처는 시스템이 하드웨어를 실시간으로 관찰하는 동적 대화를 지원합니다. 잘못된 포트에 연결된 케이블과 같은 결함이 있는 연결이 백그라운드 비전 프로세스에 의해 식별되면 시스템은 지연 시간이 짧은 스트림을 사용하여 수정 안내와 함께 사용자를 즉시 중단합니다.

설계 고려사항

다음 섹션에서는 AI 에이전트를 설계하고 프로덕션용으로 이 아키텍처를 구현하기 위한 일반적인 권장사항을 제공합니다.

AI 에이전트 설계

에이전트의 비용과 성능을 개선하려면 다음 권장사항을 고려하세요.

제어 루프 스크립트: 양방향 라이브 상담사를 위한 시스템 프롬프트를 단순히 성격 가이드라인이 아닌 엄격한 상태 머신 동작 루프로 작성합니다. 시스템 프롬프트는 트리거될 때까지 에이전트가 무음 상태를 유지하도록 명시적으로 명령해야 합니다. 음성 상호작용이 간결하고 자연스럽도록 간결하고 행동 중심적인 대답을 강제해야 합니다.
관심사 분리: 전용 백그라운드 스트리밍 도구를 사용하여 기본 에이전트와 독립적으로 동영상 피드를 모니터링합니다. 아키텍처의 루트 에이전트는 양방향이며, 자체 음성을 즉시 중단하여 사용자에게 이러한 중요한 안전 경고를 브로드캐스트할 수 있습니다. 또한 단일 에이전트에게 동영상 피드를 지속적으로 모니터링하도록 요청하면 인지 과부하와 환각이 발생할 수 있습니다.
비용 효율적인 프롬프트: 프롬프트 (입력)의 길이와 생성된 대답 (출력)은 성능과 비용에 직접적인 영향을 미칩니다. 짧고 직접적이며 충분한 맥락을 제공하는 프롬프트를 작성하세요. 모델에서 간결한 대답을 얻을 수 있도록 프롬프트를 설계하세요. 예를 들어 '2문장으로 요약해 줘' 또는 '3가지 핵심 사항을 나열해 줘'와 같은 문구를 포함합니다. 자세한 내용은 프롬프트 설계 권장사항을 참고하세요.

프로덕션 디자인

프로덕션에 이 아키텍처를 구현하려면 다음 권장사항을 고려하세요.

인그레스 보안: 애플리케이션에 대한 액세스를 제어하려면 프런트엔드 Cloud Run 서비스의 기본 run.app URL을 사용 중지하고 리전 외부 애플리케이션 부하 분산기를 설정하세요. 부하 분산기는 애플리케이션으로 들어오는 트래픽의 부하를 분산할 뿐만 아니라 SSL 인증서 관리도 처리합니다. 보호 기능을 추가하려면 Google Cloud Armor 보안 정책을 사용하여 서비스에 대한 요청 필터링, DDoS 보호, 비율 제한을 제공하면 됩니다.
액세스 제어: 토폴로지의 리소스에 대한 권한을 구성할 때는 최소 권한의 원칙을 따르세요.
비동기 버퍼링: 수신되는 오디오 및 동영상 패킷을 모델의 추론 엔진에서 분리하려면 스레드로부터 안전한 비동기 선입선출 (FIFO) 버퍼를 사용하세요. 이 버퍼는 시스템이 과도한 계산 중에 사용자 인터페이스를 고정하지 않고 사용자 중단에 계속 응답하도록 하는 멀티플렉서 역할을 합니다.
데이터 수집 비용: 토큰 비용을 줄이고 컨텍스트 윈도우 소진을 방지하려면 초당 2프레임과 같은 저주파수 프레임 샘플링을 사용하고 모든 데이터를 Base64 JPEG 파일로 압축하세요.
인메모리 캐싱: 밀리초 미만의 읽기 속도를 달성하려면 건축가 에이전트의 개략도 보관소에 인메모리 Redis용 Memorystore 클러스터 데이터베이스를 사용합니다. 이 구현은 지연 시간을 최소화하고, 실시간 음성 상호작용 중 무음 상태를 방지하며, 확장 가능한 단일 정보 소스를 제공합니다.
WebSocket 보안: 모든 양방향 WebSocket 연결에 TLS 암호화를 적용하여 음성 지문, 동영상과 같은 민감한 멀티모달 데이터를 보호합니다.
안전한 A2A 통신:
- 인증된 확장 에이전트 카드를 사용하여 A2A 통신을 보호합니다.
- OpenID Connect (OIDC) ID 토큰을 요청에 연결합니다. OIDC ID 토큰을 사용하면 Identity and Access Management (IAM)를 사용하여 승인된 에이전트만 데이터에 액세스할 수 있는지 확인할 수 있습니다.
리소스 할당: 성능 요구사항에 따라 Cloud Run 서비스에 할당할 메모리 한도 및 CPU 한도를 구성합니다.

멀티 에이전트 AI 시스템을 빌드하고 배포하기 위한 설계 요소, 권장사항, 추천에 관한 자세한 내용은 Google Cloud의 멀티 에이전트 AI 시스템을 참고하세요.

배포

이 아키텍처의 샘플 구현을 배포하려면 다음 Codelab을 참고하세요.

ADK 양방향 스트리밍 에이전트 빌드 Codelab: 라이브 동영상 스트림을 처리하여 특정 사용자 동작을 인식하는 단일 에이전트 AI 시스템을 빌드합니다.
실시간 양방향 멀티 에이전트 시스템 Codelab: 실시간 음성 및 동영상 상호작용을 위해 양방향 스트리밍을 사용하는 멀티 에이전트 AI 시스템을 빌드합니다. 이 시스템에는 지속적인 안전 모니터링을 위한 사전 예방적 스트리밍 도구가 포함되어 있습니다.

다음 단계

라이브 세션을 시작하고 관리하는 방법을 알아보세요.
ADK Gemini Live API 툴킷 소개를 살펴봅니다.
Cloud Run에서 AI 에이전트를 호스팅하는 방법을 알아보세요.
에이전트 AI 아키텍처 구성요소를 선택하는 방법을 알아보세요.
Gemini Enterprise Agent Ready (GEAR)로 엔터프라이즈급 에이전트를 빌드하고 배포하는 방법을 학습 리소스를 통해 알아보세요.
에이전트 AI 아키텍처 가이드를 더 둘러보세요.
Google Cloud에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Well-Architected Framework의 AI 및 ML 관점을 참조하세요.
그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.

참여자

저자:

크리스티나 린 | 개발자 관계팀 엔지니어 관리자
사만다 헤 | 테크니컬 라이터

기타 참여자:

저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
올리비에 부르주아 | 개발자 관계 엔지니어

에이전트 AI 사용 사례: 양방향 멀티모달 라이브 스트리밍 사용 설정 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.