분산 데이터에 대한 에이전트 분석 워크플로 구현

Last reviewed 2026-06-09 UTC

이 문서에서는 AI 에이전트를 사용하는 크로스 클라우드 분석 워크플로를 구현하기 위한 대략적인 아키텍처를 제공합니다. 이 문서는 멀티 클라우드 데이터 레이크, 구조화된 데이터 웨어하우스, 구조화되지 않은 데이터 스토어 전반에서 분석 워크플로에 에이전트 AI를 사용하려는 클라우드 설계자, 데이터 엔지니어, 데이터 과학자를 대상으로 합니다. 이 문서에서는 사용자가 에이전트형 AI 개념, 데이터 분석, 클라우드 아키텍처에 대한 기본적인 지식을 갖추고 있다고 가정합니다.

이 문서의 배포 섹션에서는 에이전트 분석 솔루션을 빌드하는 방법을 알아볼 수 있는 Codelab을 제공합니다.

아키텍처

다음 다이어그램은 여러 데이터 저장소와 클라우드 서비스 제공업체에 분산된 구조화된 데이터와 구조화되지 않은 데이터에서 비즈니스 통계를 도출하는 에이전트 기반 분석 솔루션의 아키텍처를 보여줍니다.

에이전트형 개발 환경과 AI 모델을 사용하여 Google Cloud 및 기타 클라우드 서비스 제공업체에 분산된 데이터를 분석하는 아키텍처

이 아키텍처의 구성요소는 다음 계층으로 구성됩니다.

  • 사용자 및 에이전트의 작업

    • 에이전트 개발 환경: 데이터 엔지니어, 데이터 과학자와 같은 데이터 실무자가 다음 방법 중 하나를 사용하여 자연어 요청을 제출합니다.
    • Google Cloud Data Agent Kit 확장 프로그램: 이 확장 프로그램을 사용하면 에이전트가 적절한 스킬을 로드하고 Google Cloud 서비스를 위해 원격 MCP 서버에 연결하여Google Cloud 의 신뢰할 수 있는 데이터에 액세스할 수 있습니다.
    • 파운데이션 모델: 신뢰할 수 있는 컨텍스트와 데이터에서 비즈니스 통계를 생성하기 위해 에이전트형 개발 환경에서는 Gemini 제품군의 모델과 같은 파운데이션 모델을 사용합니다. 이 모델은 데이터 에이전트 키트 확장 프로그램의 적절한 기술을 사용하고 필요한 MCP 서버 도구를 사용하여 복잡한 분석 워크플로를 구현합니다.
  • 애널리틱스 워크플로

    • Lakehouse for Apache Iceberg: Lakehouse는 Apache Iceberg 개방형 테이블 형식을 Google Cloud의 엔터프라이즈급 스토리지와 통합하는 고성능의 통합 메타데이터 카탈로그를 제공합니다.
    • Managed Service for Apache Spark: 아키텍처의 핵심 데이터 처리 구성요소입니다. Managed Service for Apache Spark의 Lightning Engine 기능은 일괄 및 대화형 모드에서 고성능 서버리스 데이터 처리를 지원합니다. Spark 데이터 처리 작업은 Lakehouse의 Iceberg 카탈로그에서 메타데이터를 사용하고, BigQuery에서 구조화된 데이터를 읽고, Amazon S3와 같은 외부 소스에서 제로 카피 읽기를 실행합니다.
    • Knowledge Catalog: 에이전트는 Knowledge Catalog를 사용하여 Cloud Storage의 비정형 데이터를 지능적으로 스캔하고, 시맨틱 메타데이터를 추출하고, 컨텍스트 그래프를 빌드합니다.
  • 신뢰할 수 있는 데이터 스토어

    • Google Cloud의 데이터: BigQuery는 Cloud Storage의 비구조화 데이터에서 추출한 구조화 데이터를 비롯한 구조화 데이터의 중앙 웨어하우스 역할을 합니다.
    • 외부 소스의 데이터: 아키텍처에는 Amazon S3 버킷의 데이터, Databricks Unity Catalog의 메타데이터와 같은 외부 데이터 소스가 표시되어 있습니다. Cross-Cloud Interconnect는 Google Cloud와 다른 클라우드 서비스 제공업체 간의 고대역폭 전용 연결을 제공합니다.

사용 제품

이 아키텍처에는 다음과 같은 Google Cloud 제품과 도구가 사용됩니다.

  • Google Cloud 데이터 에이전트 키트: 데이터 과학자, 데이터 엔지니어, 데이터 앱 개발자가 선호하는 에이전트 기반 개발 환경 내에서 전체 데이터 수명 주기를 관리할 수 있는 에이전트 확장 프로그램입니다.
  • BigQuery: 머신러닝, 지리 공간 분석, 비즈니스 인텔리전스와 같은 기본 제공 기능으로 데이터를 관리하고 분석하는 데 도움이 되는 엔터프라이즈 데이터 웨어하우스입니다.
  • Managed Service for Apache Spark: 관리형 컴퓨팅 인프라에서 Apache Spark 일괄 워크로드를 실행하는 관리형 서비스입니다.
  • Lakehouse for Apache Iceberg: 개방형 데이터 레이크하우스를 빌드하고 고급 분석 및 AI를 위한 통합 인터페이스를 제공하는 고성능 스토리지 엔진입니다.
  • Knowledge Catalog: 지능형 메타데이터 및 거버넌스 기능을 갖춘 데이터 애셋의 통합 카탈로그를 제공하는 AI 기반 서비스입니다.
  • Gemini: Google에서 개발한 멀티모달 AI 모델 제품군입니다.
  • Cloud Storage: 다양한 데이터 유형에 적합한 저비용, 무제한 객체 스토어입니다. Google Cloud내부 및 외부에서 데이터에 액세스할 수 있고 중복성을 위해 여러 위치에 복제됩니다.
  • Cross-Cloud Interconnect: Google Cloud 와 다른 클라우드 서비스 제공업체 간에 대역폭이 높고 지연 시간이 짧은 전용 연결을 제공하는 서비스입니다.
  • Google Cloud MCP 서버: 모델 컨텍스트 프로토콜(MCP)을 구현하여 AI 애플리케이션이 Google 및 Google Cloud 제품과 서비스에 액세스할 수 있도록 지원하는 Google 관리 원격 서비스입니다.

사용 사례

이 문서에서 설명하는 아키텍처는 다음 사용 사례에 적합합니다.

  • 멀티 클라우드 데이터 분석: 파일을 이동하거나 복잡한 추출, 변환, 로드 (ETL) 파이프라인을 빌드하지 않고도 Google Cloud 및 기타 클라우드 서비스 제공업체에 분산된 데이터를 효율적으로 쿼리하고 분석합니다. 예를 들어 글로벌 소매업체의 마케팅 관리자는 Amazon S3의 고객 충성도 데이터를 BigQuery의 마케팅 운영 데이터와 결합하여 마케팅 캠페인의 효과를 분석할 수 있습니다.
  • 지능형 데이터 검색: 자연어 프롬프트와 AI 에이전트를 사용하여 여러 환경에서 연합 데이터 세트를 검색, 쿼리, 처리합니다. 예를 들어 조달 전문가는 공급망 관리 (SCM) 시스템의 구조화된 데이터와 비구조화된 이메일 커뮤니케이션 및 손상 평가 보고서의 유용한 정보를 결합하여 공급망 중단의 일반적인 원인을 파악할 수 있습니다.
  • 비구조화된 소스에서 구조화된 데이터 추출: 대량의 비구조화된 데이터를 스캔하고, 의미론적 메타데이터를 파생시키고, 다운스트림 분석을 위해 BigQuery에 구조화된 데이터 추출을 저장합니다. 예를 들어 운영 관리자는 PDF 파일과 같은 비정형 형식으로 저장된 수천 개의 인보이스에서 구조화된 데이터를 추출하여 비용을 효율적으로 분석할 수 있습니다.

배포

데이터 에이전트 키트 확장 프로그램을 사용하여 에이전트 기반 분석 솔루션을 빌드하는 방법을 알아보려면 Codelab AI 에이전트를 사용하여 원시 데이터를 몇 초 만에 예측하기를 참고하세요. 이 Codelab에서는 데이터 에이전트 키트 확장 프로그램을 사용하면 선호하는 에이전트 개발 환경 내에서 데이터를 효율적으로 분석할 수 있는 방법을 보여줍니다. Codelab에서 사용하는 모든 샘플 데이터는Google Cloud에 저장됩니다.

다음 단계

참여자

저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자

기타 참여자: