이 문서에서는 Cloud Run에 배포되어 다양한 멀티모달 데이터를 분석하고 신뢰도가 높은 분류를 생성하는 멀티 에이전트 AI 시스템의 개략적인 아키텍처를 설명합니다. 이 접근 방식은 실시간 데이터를 과거 정답과 매칭하여 그라운딩되고 검증 가능한 통계를 생성함으로써 미디어 조각을 교차 검증합니다.
이 문서의 주요 대상은 클라우드에서 AI 인프라와 애플리케이션을 빌드하고 관리하는 설계자, 개발자, 관리자를 포함합니다. 이 문서에서는 AI 에이전트와 모델에 대한 기본적인 이해가 있다고 가정합니다. 이 문서에서는 AI 에이전트 설계 및 코딩에 관한 구체적인 안내를 제공하지 않습니다.
이 문서의 배포 섹션에는 멀티 에이전트 AI 시스템을 빌드하고 배포하는 방법을 배우는 데 사용할 수 있는 코드 샘플이 나열되어 있습니다.
아키텍처
다음 다이어그램은 병렬 에이전트 설계 패턴을 사용하여 멀티모달 데이터에 대한 독립적인 분석을 조정하여 단일 분류를 생성하는 멀티 에이전트 AI 시스템의 아키텍처를 보여줍니다.
아키텍처는 다음 데이터 흐름을 보여줍니다.
- 웹 애플리케이션은 분류를 위해 멀티모달 데이터 세트를 분석하도록 루트 에이전트에 요청을 보냅니다. 루트 에이전트는 요청을 수신하고 Cloud Run 서비스에 배포되는 코디네이터 에이전트입니다.
- 루트 에이전트는 다음과 같은 방식으로 요청을 처리합니다.
- 루트 에이전트는
before_agent_callback를 시작하여 환경 구성을 수집하고, 사용자 입력을 검증하고, 공유 세션 상태에 리소스 경로를 저장합니다. 모든 하위 에이전트가 공유 세션 상태에 액세스할 수 있으므로 상태 데이터를 가져오는 중복 호출이 제거되고 전체 지연 시간이 줄어듭니다. - 루트 에이전트는 Vertex AI의 Gemini를 사용하여 사용자의 요청을 해석하고 병렬로 실행되는 전문 하위 에이전트에 작업을 분배합니다.
- 루트 에이전트는
- 각 하위 에이전트는 특정 도메인을 전문으로 하며 다음과 같은 작업을 독립적으로 수행합니다.
- 이미지 및 동영상 분석가 하위 에이전트는 맞춤 모델 컨텍스트 프로토콜 (MCP) 서버와 상호작용하여 다음 작업을 실행합니다.
- Cloud Storage 버킷에 저장된 원시 비구조화 데이터를 가져옵니다.
- 입력 데이터를 해석하고, 데이터를 분류하고, 신뢰 수준을 계산하도록 Gemini에 요청을 보냅니다.
- Gemini는 추천 분류와 신뢰도 수준을 맞춤 MCP 서버에 다시 전송합니다.
- 맞춤 MCP 서버는 응답을 하위 에이전트로 다시 전달합니다.
- 구조화된 데이터 분석가 하위 에이전트는 다음 작업을 완료하여 분석을 조정합니다.
- BigQuery MCP 서버와 상호작용하여 BigQuery 데이터 세트에 저장된 구조화된 컨텍스트 데이터 (예: 이전 기록, 이벤트 로그, 센서 판독값)를 가져옵니다.
- 구조화된 데이터 분석가는 Gemini에 입력 데이터를 해석하고, 데이터를 분류하고, 신뢰 수준을 계산해 달라고 요청합니다.
- Gemini는 제안된 분류와 신뢰도 수준을 하위 에이전트에 다시 전송합니다.
- 이미지 및 동영상 분석가 하위 에이전트는 맞춤 모델 컨텍스트 프로토콜 (MCP) 서버와 상호작용하여 다음 작업을 실행합니다.
- 각 하위 에이전트는 제안된 분류와 신뢰도 수준을 루트 에이전트로 다시 전송합니다.
- 루트 에이전트는 Gemini를 사용하여 전문 하위 에이전트의 출력을 요약하여 신뢰도가 높은 단일 분류를 생성합니다.
- 전문 하위 에이전트의 분류 대부분이 일치하면 루트 에이전트는 일치하는 분류를 웹 애플리케이션에 전송합니다.
- 하위 에이전트가 일치하는 분류를 제공하지 않으면 루트 에이전트가 신뢰도 수준이 가장 높은 분류를 선택하여 웹 애플리케이션에 전송합니다.
사용 제품
이 참조 아키텍처에는 다음과 같은 Google Cloud 제품과 도구가 사용됩니다.
- Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
- Vertex AI: ML 모델 및 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용하도록 LLM을 맞춤설정할 수 있게 해주는 ML 플랫폼입니다.
- Gemini: Google에서 개발한 멀티모달 AI 모델 제품군입니다.
- BigQuery: 머신러닝 지리 정보 분석 및 비즈니스 인텔리전스와 같은 기본 제공 기능으로 데이터를 관리 및 분석하는 데 도움이 되는 엔터프라이즈 데이터 웨어하우스입니다.
- Cloud Storage: 다양한 데이터 유형에 적합한 저비용, 무제한 객체 저장소입니다. Google Cloud내부 및 외부에서 데이터에 액세스할 수 있고 중복성을 위해 여러 위치에 복제됩니다.
- Google Cloud MCP 서버: 모델 컨텍스트 프로토콜(MCP)을 구현하여 AI 애플리케이션이 Google 및 Google Cloud 제품과 서비스에 액세스할 수 있도록 하는 Google 관리 원격 서비스입니다.
- 모델 컨텍스트 프로토콜 (MCP): AI 애플리케이션을 외부 시스템에 연결하기 위한 오픈소스 표준입니다.
- 에이전트 개발 키트 (ADK): AI 에이전트를 개발, 테스트, 배포하는 도구 및 라이브러리 세트입니다.
프레임워크, 에이전트 런타임, 도구, 메모리, 설계 패턴 등 에이전트 AI 시스템의 대체 구성요소를 선택하는 방법에 관한 자세한 내용은 에이전트 AI 아키텍처 구성요소 선택을 참고하세요.
사용 사례
이 아키텍처는 분류 및 감지 작업을 위해 다양한 멀티모달 데이터를 합성하는 사용 사례를 위해 설계되었습니다. 정확성과 확장성을 높이기 위해 이 아키텍처는 모놀리식 단일 에이전트 접근 방식 대신 멀티 에이전트 AI 시스템을 사용합니다. 이 설계 패턴은 집중된 안내를 제공하고, 충돌하는 지시어를 방지하며, 더 빠른 결정을 위해 더 작은 도구 세트를 지원하고, 독립적인 업데이트를 지원하므로 더 강력하고 정교한 결과를 얻을 수 있습니다.
다음은 이 문서에 설명된 아키텍처의 사용 사례 예입니다.
- 의료 진단: 전문 에이전트를 배포하여 의료 영상, 환자 증상, 실험실 결과를 독립적으로 분석하여 포괄적인 진단 평가를 제공합니다. AI 시스템은 결정된 신뢰도 기준에 따라 이러한 결과를 요약하여 임상의에게 그라운딩되고 검증 가능한 통계를 제공합니다.
- 사기 감지: 에이전트를 배포하여 사용자 행동 패턴과 스캔한 영수증, 판매자 인보이스와 같은 거래 데이터를 독립적으로 분석하여 잠재적인 사기를 감지하고 신고합니다. 문서의 시각적 증거를 디지털 네트워크 활동과 상호 참조하여 시스템은 불일치를 식별하고 단일 상담사가 의심스러운 지표를 식별하는 거래에 플래그를 지정합니다.
- 문서 처리: 광학 문자 인식 (OCR), 문서 분류, 데이터 추출을 위한 특수 에이전트를 배포하여 문서의 정보 분류 및 추출을 자동화합니다. 신뢰도 높은 처리를 지원하려면 AI 시스템에서 모든 에이전트가 출력에 동의해야 합니다.
- 품질 관리: 시각적 검사, 센서 데이터 분석, 사양 확인을 위한 전문 에이전트를 배포하여 제품 품질을 분류하거나 이상치를 감지합니다. 시스템은 상담사 간에 결정된 신뢰도 기준에 따라 통과 또는 실패를 결정합니다.
설계 고려사항
프로덕션에 이 아키텍처를 구현하려면 다음 권장사항을 고려하세요.
- 에이전트 보안: 에이전트가 위험한 작업을 실행할 수 있는 기능을 제한하려면 에이전트 ID를 만든 다음 Identity and Access Management (IAM) 속성을 사용하여 MCP 서버에 대한 액세스를 보호하세요. 최소 권한의 원칙을 적용하면 에이전트 AI 시스템이 예상대로 작동하고 프로덕션 리소스에 대한 의도치 않은 읽기-쓰기 액세스를 방지할 수 있습니다.
- 인그레스 보안: 애플리케이션에 대한 액세스를 제어하려면 프런트엔드 Cloud Run 서비스의 기본 run.app URL을 사용 중지하고 리전 외부 애플리케이션 부하 분산기를 설정하세요. 부하 분산기는 애플리케이션으로 들어오는 트래픽의 부하를 분산할 뿐만 아니라 SSL 인증서 관리도 처리합니다. 보호 기능을 추가하려면 Google Cloud Armor 보안 정책을 사용하여 서비스에 요청 필터링, DDoS 보호, 비율 제한을 제공하세요.
- 컨테이너 이미지 보안: 승인된 컨테이너 이미지만 Cloud Run에 배포되도록 하려면 Binary Authorization을 사용하세요. 컨테이너 이미지의 보안 위험을 식별하고 완화하려면 Artifact Analysis를 사용하여 취약점 스캔을 자동으로 실행하세요. 자세한 내용은 컨테이너 스캔 개요를 참고하세요.
- 비용 효율적인 프롬프트: 프롬프트 (입력)의 길이와 생성된 대답 (출력)은 성능과 비용에 직접적인 영향을 미칩니다. 짧고 직접적이며 충분한 맥락을 제공하는 프롬프트를 작성합니다. 자세한 내용은 프롬프트 설계 권장사항을 참고하세요.
- 스토리지 비용: 스토리지 비용을 관리하려면 표준 스토리지 클래스를 선택하고 객체 수명 주기 관리 및 자동 클래스를 사용 설정하면 됩니다. 이러한 기능을 사용하면 액세스 패턴이나 설정한 규칙에 따라 스토리지 클래스 간에 데이터를 자동으로 이동하거나 삭제하여 비용을 최적화할 수 있습니다.
- 스토리지 보안: Cloud Storage는 버킷과 객체에 대한 사용자 액세스를 제어하기 위해 IAM 및 액세스 제어 목록 (ACL)의 두 가지 방법을 지원합니다. 대부분의 경우 버킷 및 프로젝트 수준에서 권한을 부여할 수 있는 IAM을 사용하는 것이 좋습니다. 자세한 내용은 액세스 제어 개요를 참고하세요.
- 리소스 할당: 성능 요구사항에 따라 Cloud Run 서비스에 할당할 메모리 한도 및 CPU 한도를 구성합니다. 성능 최적화에 관한 자세한 안내는 일반적인 Cloud Run 개발 팁을 참고하세요.
설계 요소 및 권장사항에 관한 정보와 다중 에이전트 AI 시스템 빌드 및 배포에 관한 권장사항은 의 다중 에이전트 AI 시스템을 참고하세요. Google Cloud
배포
이 아키텍처의 샘플 구현을 배포하려면 집으로 가는 길 레벨 1 Codelab을 참고하세요.
다음 단계
- Cloud Run에서 AI 에이전트를 호스팅하는 방법을 알아보세요.
- Cloud Run에 원격 MCP 서버를 빌드하고 배포하는 방법을 알아봅니다.
- 에이전트형 AI 아키텍처 구성요소를 선택하는 방법 알아보기
- (동영상) 에이전트를 위한 맞춤 도구 빌드에 관한 Agent Factory 팟캐스트를 시청하세요.
- 에이전트 기반 AI 아키텍처 가이드를 자세히 알아보세요.
- Google Cloud에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Well-Architected Framework의 AI 및 ML 관점을 참조하세요.
- 그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.
참여자
저자: 사만다 헤 | 테크니컬 라이터
기타 참여자:
- Amina Mansour | Cloud Platform 평가팀 책임자
- 안드레이 샤키로프 | 솔루션 설계자, Google Cloud
- 아요 아데데지 | 개발자 관계팀 엔지니어
- 크리스티나 린 | 개발자 관계팀 엔지니어 관리자
- 저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
- 라이언 페이 | Google Cloud 제품 관리자