Cloud Run에서 AI 솔루션 실행

이 가이드에서는 Cloud Run을 사용하여 앱을 호스팅하고, 추론을 실행하고, AI 워크플로를 빌드하는 방법을 간략하게 설명합니다.

AI 애플리케이션, 에이전트, 확장 가능한 API 엔드포인트를 호스팅하기 위한 Cloud Run

Cloud Run은 AI 앱과 워크로드를 확장하는 완전 관리형 플랫폼을 제공합니다.

Cloud Run에서 AI 앱을 호스팅할 때는 일반적으로 다음과 같은 아키텍처 구성요소가 있습니다.

  • 서빙 및 조정: 애플리케이션 코드 또는 컨테이너를 Cloud Run에 배포합니다.
  • AI 모델: 앱에서 Google의 AI 모델, 오픈소스 모델 또는 커스텀 모델을 사용합니다.
  • 통합: 메모리, 데이터베이스, 스토리지, 보안 등을 위해 Google Cloud 서비스 또는 서드 파티 서비스에 연결할 수 있습니다.
  • 도구: 다른 태스크 및 작업을 위한 도구에 연결할 수 있습니다.

다음 다이어그램은 AI 앱의 호스팅 플랫폼으로 Cloud Run을 사용하는 방법을 개략적으로 보여줍니다.

Cloud Run에서 호스팅되는 AI 앱의 네 가지 구성요소는 다음과 같습니다.
    1. 서빙 및 조정, 2. AI 모델, 3. 통합, 4. 도구.
그림 1. Cloud Run에서 호스팅되는 AI 앱의 구성요소

다이어그램에 표시된 것처럼 다음과 같습니다.

  1. 서빙 및 조정 레이어 내에서 Cloud Run 서비스는 애플리케이션의 핵심 로직을 위한 확장 가능한 API 엔드포인트 역할을 합니다. 인스턴스의 자동, 주문형, 신속한 확장을 통해 여러 동시 실행 사용자를 효율적으로 관리합니다.

    Cloud Run에 배포할 컨테이너를 가져옵니다. 애플리케이션과 그 종속 항목을 컨테이너로 패키징하거나 소스 코드를 제공하여 Cloud Run에서 배포를 위해 코드를 컨테이너로 자동 빌드하도록 할 수 있습니다. 소스 코드 배포의 경우 언어, 오픈 프레임워크 또는 SDK를 사용하여 AI 앱을 빌드할 수 있습니다.

  2. AI 앱은 수신 요청을 처리하고 사전 학습된 AI 모델로 데이터를 전송하여 처리한 후 결과를 반환하는 확장 가능한 API 엔드포인트 역할을 합니다.

    Cloud Run은 Gemini 및 Vertex AI 모델과 같은 Google 모델과 통합되며 Llama 및 Gemma와 같은 오픈소스 모델과 통합될 수 있습니다. 직접 학습시킨 커스텀 모델이 있는 경우 Cloud Run 리소스와 함께 해당 모델을 사용할 수도 있습니다.

  3. Google Cloud AI 애플리케이션의 인프라를 지원하는 다양한 솔루션을 제공합니다. AI 앱과 잘 작동하는 Google Cloud 통합의 예시는 다음과 같습니다.

    • 메모리 및 데이터베이스
      • 단기
        • Memorystore는 빠르고 단기 데이터 저장을 위한 외부 캐시를 제공하는 캐싱 및 임시적으로 액세스 빈도가 높은 데이터 관리 서비스입니다.
      • 장기
        • PostgreSQL용 AlloyDB는 까다로운 트랜잭션 및 분석 워크로드를 위해 설계된 PostgreSQL 호환 데이터베이스입니다. 기본 제공 벡터 임베딩 생성 및 고속 벡터 색인을 제공하므로 표준 pgvector 구현에 비해 시맨틱 검색 속도가 빠릅니다.
        • Cloud SQL은 MySQL, PostgreSQL, SQL Server를 위한 관계형 데이터베이스 서비스이며 PostgreSQL용 pgvector 확장 프로그램을 사용하여 벡터 저장소로도 사용할 수 있습니다.
        • Firestore는 기본 제공 벡터 검색 기능이 포함된 확장 가능한 NoSQL 문서 데이터베이스 서비스입니다.
    • 스토리지
      • Cloud Storage는 모델 학습을 위한 대규모 데이터 세트, 애플리케이션의 입력/출력 파일 또는 모델 아티팩트를 저장하는 객체 스토리지 솔루션입니다.
    • 보안
      • Secret Manager는 AI 애플리케이션이 외부 서비스와 상호작용하는 데 자주 필요한 API 키, 비밀번호, 사용자 인증 정보와 같은 민감한 정보를 안전하고 중앙화된 방식으로 저장할 수 있는 보안 비밀 및 사용자 인증 정보 관리 서비스입니다.

    자세한 내용은 Google Cloud 서비스에 연결을 참조하세요.

  4. 도구를 사용하면 AI 앱과 모델이 외부에서 또는 Cloud Run에서 실행되는 서비스, API 또는 웹사이트와 상호작용할 수 있습니다.

    예를 들어 AI 앱이 AI 에이전트인 경우 에이전트가 MCP 서버에 요청을 전송하여 외부 도구를 실행하거나 컨테이너에서 실행되는 도구(예: 코드 실행, 컴퓨터 사용, 정보 검색 등)를 사용할 수 있습니다.

AI 추론을 위해 Cloud Run에 모델 호스팅

대규모 언어 모델(LLM)을 사용하는 애플리케이션과 에이전트를 빌드하는 것 외에도 Cloud Run으로 GPU를 사용 설정하여 AI 추론을 위해 사전 학습된 모델이나 자체 배포된 커스텀 모델을 실행할 수 있습니다.

Cloud Run GPU를 사용하면 AI 추론 워크로드의 컴퓨팅 집약적인 태스크를 실행하는 데 필요한 많은 작업을 처리할 수 있습니다. AI 모델을 컨테이너 이미지로 또는 소스 코드에서 배포하고 다양한 메서드를 사용하여 Cloud Run 리소스를 배포합니다.

다음 단계