이 문서에서는 Cloud Run에 배포되어 다양한 멀티모달 데이터를 분석하고 신뢰도가 높은 분류를 생성하는 멀티 에이전트 AI 시스템의 대략적인 아키텍처를 제공합니다. 이 접근 방식은 실시간 데이터를 이전 정답과 일치시켜 단편적인 미디어를 교차 검증하여 근거가 있고 검증 가능한 통계를 생성합니다.
이 문서의 주요 대상에는 클라우드에서 AI 인프라 및 애플리케이션을 빌드하고 관리하는 설계자, 개발자, 관리자가 포함됩니다. 이 문서에서는 사용자가 AI 에이전트 및 모델에 대한 기본적인 이해를 갖추고 있다고 가정합니다. 이 문서에서는 AI 에이전트 설계 및 코딩에 관한 구체적인 안내를 제공하지 않습니다.
이 문서의 배포 섹션에는 멀티 에이전트 AI 시스템을 빌드하고 배포하는 방법을 알아보는 데 사용할 수 있는 코드 샘플이 나와 있습니다.
아키텍처
다음 다이어그램은 멀티모달 데이터에 대한 독립적인 분석을 조정하여 단일 분류를 생성하는 병렬 에이전트 설계 패턴 을 사용하는 멀티 에이전트 AI 시스템의 아키텍처를 보여줍니다.
아키텍처는 다음과 같은 데이터 흐름을 보여줍니다.
- 웹 애플리케이션은 분류를 위해 멀티모달 데이터 세트를 분석하도록 루트 에이전트에 요청을 보냅니다. 루트 에이전트는 요청을 수신하고 Cloud Run 서비스에 배포되는 코디네이터 에이전트입니다.
- 루트 에이전트는 다음과 같은 방식으로 요청을 처리합니다.
- 루트 에이전트는
before_agent_callback을 시작하여 환경 구성을 수집하고, 사용자 입력을 검증하고, 공유 세션 상태에 리소스 경로를 저장합니다 . 모든 하위 에이전트는 공유 세션 상태에 액세스할 수 있으므로 상태 데이터를 가져오는 중복 호출이 제거되고 전반적인 지연 시간이 줄어듭니다. - 루트 에이전트는 Vertex AI의 Gemini를 사용하여 사용자 요청을 해석하고 병렬로 실행되는 전문 하위 에이전트에 작업을 분산합니다.
- 루트 에이전트는
- 각 하위 에이전트는 특정 도메인을 전문으로 하며 다음과 같은 작업을 독립적으로 수행합니다.
- 이미지 및 동영상 분석가 하위 에이전트는 커스텀 모델 컨텍스트
프로토콜 (MCP) 서버와 상호작용하여
다음 작업을 수행합니다.
- Cloud Storage 버킷에 저장된 구조화되지 않은 원시 데이터를 가져옵니다.
- Gemini에 입력 데이터를 해석하고, 데이터를 분류하고, 신뢰도 수준을 계산하도록 요청을 보냅니다.
- Gemini는 제안된 분류 및 신뢰도 수준을 커스텀 MCP 서버로 다시 보냅니다.
- 커스텀 MCP 서버는 응답을 하위 에이전트로 다시 전달합니다.
- 구조화된 데이터 분석가 하위 에이전트는 다음 작업을 완료하여 분석을 조정합니다.
- BigQuery MCP 서버와 상호작용하여 BigQuery 데이터 세트에 저장된 구조화된 컨텍스트 데이터 (예: 이전 기록, 이벤트 로그, 센서 판독값)를 가져옵니다.
- 구조화된 데이터 분석가는 Gemini에 입력 데이터를 해석하고, 데이터를 분류하고, 신뢰도 수준을 계산하도록 요청을 보냅니다.
- Gemini는 제안된 분류 및 신뢰도 수준을 하위 에이전트로 다시 보냅니다.
- 이미지 및 동영상 분석가 하위 에이전트는 커스텀 모델 컨텍스트
프로토콜 (MCP) 서버와 상호작용하여
다음 작업을 수행합니다.
- 각 하위 에이전트는 제안된 분류 및 신뢰도 수준을 루트 에이전트로 다시 보냅니다.
- 루트 에이전트는 Gemini를 사용하여 전문 하위 에이전트의 출력을 요약하여 신뢰도가 높은 단일 분류를 생성합니다.
- 전문 하위 에이전트의 분류 대부분이 일치하면 루트 에이전트는 일치하는 분류를 웹 애플리케이션으로 보냅니다.
- 하위 에이전트가 일치하는 분류를 제공하지 않으면 루트 에이전트는 신뢰도 수준이 가장 높은 분류를 선택하여 웹 애플리케이션으로 보냅니다.
사용 제품
이 참조 아키텍처에는 다음과 같은 Google Cloud 제품 및 도구가 사용됩니다.
- Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
- Vertex AI: ML 모델 및 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용하도록 LLM을 맞춤설정할 수 있게 해주는 ML 플랫폼입니다.
- Gemini: Google에서 개발한 멀티모달 AI 모델 제품군입니다.
- BigQuery: 머신러닝 지리 정보 분석 및 비즈니스 인텔리전스와 같은 기본 제공 기능으로 데이터를 관리 및 분석하는 데 도움이 되는 엔터프라이즈 데이터 웨어하우스입니다.
- Cloud Storage: 다양한 데이터 유형에 적합한 저비용, 무제한 객체 스토어입니다. 내부 및 외부에서 데이터에 액세스할 수 있고 Google Cloud중복성을 위해 여러 위치에 복제됩니다.
- Google Cloud MCP 서버: 모델 컨텍스트 프로토콜 (MCP)을 구현하여 AI 애플리케이션이 Google 및 Google Cloud 제품과 서비스에 액세스할 수 있도록 하는 Google 관리형 원격 서비스입니다.
- 모델 컨텍스트 프로토콜 (MCP): AI 애플리케이션을 외부 시스템에 연결하기 위한 오픈소스 표준입니다.
- 에이전트 개발 키트 (ADK): AI 에이전트를 개발, 테스트, 배포하기 위한 도구 및 라이브러리 세트입니다.
프레임워크, 에이전트 런타임, 도구, 메모리, 설계 패턴을 비롯한 에이전트 AI 시스템의 대체 구성요소를 선택하는 방법에 대한 자세한 내용은 다음 항목을 참조하세요. 에이전트 AI 아키텍처 구성요소 선택
사용 사례
이 아키텍처는 분류 및 감지 작업을 위해 다양한 멀티모달 데이터를 합성하는 사용 사례를 위해 설계되었습니다. 정확성과 확장성을 높이기 위해 이 아키텍처는 모놀리식 단일 에이전트 접근 방식 대신 멀티 에이전트 AI 시스템을 사용합니다. 이 설계 패턴은 집중적인 안내를 제공하고, 상충되는 지시어를 피하고, 더 빠른 결정을 위해 더 작은 도구 세트를 사용 설정하고, 독립적인 업데이트를 지원하므로 더 강력하고 정교한 결과를 얻을 수 있습니다.
다음은 이 문서에 설명된 아키텍처의 사용 사례 예시입니다.
- 의료 진단: 전문 에이전트를 배포하여 의료 영상, 환자 증상, 실험실 결과를 독립적으로 분석함으로써 포괄적인 진단 평가를 제공합니다. AI 시스템은 결정된 신뢰도 기준점을 기반으로 이러한 결과를 요약하여 의료진에게 근거가 있고 검증 가능한 통계를 제공합니다.
- 사기 감지: 에이전트를 배포하여 사용자 행동 패턴과 스캔한 영수증 및 판매자 인보이스와 같은 거래 데이터를 독립적으로 분석함으로써 잠재적인 사기를 감지하고 신고합니다. 문서의 시각적 증거를 디지털 네트워크 활동과 교차 참조하여 시스템은 불일치를 식별하고 단일 에이전트가 의심스러운 지표를 식별하는 거래에 플래그를 지정합니다.
- 문서 처리: 광학 문자 인식 (OCR), 문서 분류, 데이터 추출을 위한 전문 에이전트를 배포하여 문서에서 정보를 분류하고 추출하는 작업을 자동화합니다. 신뢰도가 높은 처리를 지원하려면 AI 시스템에서 모든 에이전트가 출력에 동의해야 합니다.
- 품질 관리: 시각적 검사, 센서 데이터 분석, 사양 확인을 위한 전문 에이전트를 배포하여 제품 품질을 분류하거나 이상을 감지합니다. 시스템은 에이전트 간에 결정된 신뢰도 기준점을 기반으로 합격 또는 불합격을 결정합니다.
설계 고려사항
프로덕션에 이 아키텍처를 구현하려면 다음 권장사항을 고려하세요.
- 에이전트 보안: 에이전트가 위험한 작업을 수행할 수 있는 기능을 제한하려면 에이전트 ID를 만든 후 Identity and Access Management (IAM) 속성을 사용하여 MCP 서버에 대한 액세스를 보호합니다. 최소 권한의 원칙을 적용하면 에이전트 AI 시스템이 예상대로 작동하고 프로덕션 리소스에 대한 의도하지 않은 읽기-쓰기 액세스를 방지할 수 있습니다.
- 인그레스 보안: 애플리케이션에 대한 액세스를 제어하려면 프런트엔드 Cloud Run 서비스의 기본 run.app URL을사용 중지하고 리전 외부 애플리케이션 부하 분산기를 설정합니다. 부하 분산기는 애플리케이션으로 들어오는 트래픽의 부하를 분산하는 것 외에도 SSL 인증서 관리를 처리합니다. 보호 기능을 추가하려면 Google Cloud Armor 보안 정책 을 사용하여 서비스에 요청 필터링, DDoS 보호, 비율 제한을 제공합니다.
- 컨테이너 이미지 보안: 승인된 컨테이너 이미지만 Cloud Run에 배포되도록 하려면 Binary Authorization을 사용합니다. 컨테이너 이미지의 보안 위험을 식별하고 완화하려면 Artifact Analysis를 사용하여 취약점 스캔을 자동으로 실행합니다. 자세한 내용은 컨테이너 스캔 개요를 참조하세요.
- 비용 효율적인 프롬프트: 프롬프트 (입력)의 길이와 생성된 응답 (출력)은 성능과 비용에 직접적인 영향을 미칩니다. 짧고 직접적이며 충분한 컨텍스트를 제공하는 프롬프트를 작성합니다. 자세한 내용은 프롬프트 설계 권장사항을 참조하세요.
- 스토리지 비용: 스토리지 비용을 관리하려면 Standard Storage를 선택하고 객체 수명 주기 관리 및 자동 클래스를 사용 설정하면 됩니다. 이러한 기능을 사용하면 액세스 패턴 또는 설정한 규칙에 따라 스토리지 클래스 간에 데이터를 자동으로 이동하거나 삭제하여 비용을 최적화할 수 있습니다.
- 스토리지 보안: Cloud Storage는 버킷과 객체에 대한 사용자 액세스를 제어하기 위해 IAM 및 액세스 제어 목록 (ACL)의 두 가지 방법을 지원합니다. 대부분의 경우 버킷 및 프로젝트 수준에서 권한을 부여할 수 있는 IAM을 사용하는 것이 좋습니다. 자세한 내용은 액세스 제어 개요를 참조하세요.
- 리소스 할당: 성능 요구사항에 따라 Cloud Run 서비스에 할당할 메모리 한도 및 CPU 한도를 구성합니다. 성능 최적화에 관한 자세한 내용은 다음 일반적인 Cloud Run 개발 팁을 참조하세요.
설계 요소 및 권장사항에 관한 정보와 멀티 에이전트 AI 시스템 빌드 및 배포에 관한 권장사항은 의 멀티 에이전트 AI 시스템을 참조하세요. Google Cloud
배포
이 아키텍처의 샘플 구현을 배포하려면 Way Back Home Level 1 Codelab을 사용해 보세요.
다음 단계
- Cloud Run에서 AI 에이전트를 호스팅하는 방법을 알아봅니다.
- Cloud Run에서 원격 MCP 서버를 빌드하고 배포하는 방법을 알아봅니다.
- 에이전트 AI 아키텍처 구성요소를 선택하는 방법을 알아봅니다.
- (동영상) 에이전트를 위한 커스텀 도구 빌드에 관한 Agent Factory 팟캐스트를 시청합니다.
- 에이전트 AI 아키텍처 가이드를 더 둘러보기.
- 에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Google Cloud Well-Architected Framework의 AI 및 ML 관점 을 참조하세요.
- 그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.
참여자
저자: 사만다 헤 | 테크니컬 라이터
기타 참여자:
- 아미나 만수르 | Cloud Platform 평가팀 책임자
- 안드레이 샤키로프 | Google Cloud 솔루션 설계자
- 아요 아데데지 | 개발자 관계 엔지니어
- 크리스티나 린 | 개발자 관계 엔지니어 관리자
- 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
- 라이언 페이 | Google Cloud 제품 관리자