Cloud Run의 AI 사용 사례

에이전트를 구축하거나, 추론 모델을 실행하거나, 다양한 AI 서비스와 통합하는 경우에도 Cloud Run은 AI 혁신을 실현하는 데 필요한 확장성, 유연성, 그리고 사용 편의성을 제공합니다.

이 페이지에서는 Cloud Run에서 AI 워크로드를 호스팅, 빌드, 배포하는 주요 사용 사례를 간략히 소개합니다.

AI 워크로드에 Cloud Run을 사용해야 하는 이유

Cloud Run은 AI 애플리케이션의 확장성, 유연성, 관리 용이성을 보장하기 위해 여러 가지 이점을 제공합니다. 주요 특징은 다음과 같습니다.

유연한 컨테이너 지원: 앱과 그 종속 항목을 컨테이너로 패키징하거나, 지원되는 언어, 라이브러리, 프레임워크를 사용할 수 있습니다. 자세한 내용은 Cloud Run의 컨테이너 런타임 계약을 참조하세요.
HTTP 엔드포인트: Cloud Run 서비스를 배포하면 즉시 사용할 수 있는 보안 Cloud Run URL 엔드포인트가 제공됩니다. Cloud Run은 HTTP 청크 전송 인코딩, HTTP/2, WebSocket을 지원하여 스트리밍을 제공합니다.
자동 또는 수동 확장: 기본적으로 Cloud Run은 수요에 따라 서비스를 자동으로 확장하며, 필요하지 않을 때는 0까지 축소합니다. 이 방식으로 사용한 만큼만 요금이 청구되어, 예측이 어려운 AI 워크로드에 적합합니다. 또한 트래픽 및 CPU 사용률 요구사항에 따라 수동 확장으로 서비스를 설정할 수도 있습니다.

GPU 지원: Cloud Run 리소스에 GPU를 구성하여 AI 모델을 가속화할 수 있습니다. GPU가 사용 설정된 Cloud Run 서비스는 사용 중이 아닐 때 비용 절감을 위해 0까지 축소될 수 있습니다.
통합 생태계: Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, PostgreSQL용 AlloyDB, Cloud CDN, Secret Manager, 커스텀 도메인 등 다른 Google Cloud 서비스에 원활하게 연결하여, 포괄적인 엔드 투 엔드 AI 파이프라인을 구축할 수 있습니다. 또한 Google Cloud Observability는 애플리케이션 성능을 파악하고 문제를 효과적으로 해결할 수 있도록 기본 제공되는 모니터링 및 로깅 도구를 제공합니다.

엔터프라이즈 지원: Cloud Run은 직접적인 VPC 연결, 세분화된 보안, 네트워킹 제어 기능을 제공합니다.

주요 AI 사용 사례

Cloud Run을 사용하여 AI 애플리케이션을 구동하는 몇 가지 방법은 다음과 같습니다.

AI 에이전트 및 봇 호스팅

Cloud Run은 AI 에이전트, 챗봇, 가상 어시스턴트의 백엔드 로직을 호스팅하는 데 이상적인 플랫폼입니다. 이러한 에이전트는 Vertex AI의 Gemini와 같은 AI 모델을 호출하는 워크플로를 조정하고, 상태를 관리하며, 다양한 도구 및 API와 통합할 수 있습니다.

에이전트용 마이크로서비스: 각 에이전트 기능을 개별 Cloud Run 서비스로 배포합니다. 자세한 내용은 AI 에이전트 호스팅을 참조하세요.

Agent2Agent(A2A) 통신: A2A 프로토콜을 사용하여 협업형 에이전트 시스템을 구축합니다. 자세한 내용은 A2A 에이전트 호스팅을 참조하세요.

모델 컨텍스트 프로토콜(MCP) 서버: MCP 서버를 구현하여 도구 및 데이터 소스에서 LLM에 표준화된 컨텍스트를 제공합니다. 자세한 내용은 MCP 서버 호스팅을 참조하세요.

추론용 AI/ML 모델 서빙

학습된 머신러닝 모델을 확장 가능한 HTTP 엔드포인트로 배포합니다.

실시간 추론: TensorFlow, PyTorch, scikit-learn 등의 프레임워크로 구축된 모델이나 Gemma와 같은 개방형 모델에서 예측값을 서빙합니다. 예시는 Cloud Run에서 Gemma 3 실행을 참조하세요.

GPU 가속: 연산 요구가 높은 모델의 추론을 가속화하기 위해 NVIDIA GPU를 사용합니다. 자세한 내용은 서비스의 GPU 구성을 참조하세요.
Vertex AI와 통합: Cloud Run을 확장 가능한 프런트엔드로 사용하여, Vertex AI에서 학습되거나 배포된 모델을 서빙합니다.

대용량 모델 파일을 컨테이너에서 분리: Cloud Storage FUSE 어댑터를 사용하면 Cloud Storage 버킷을 마운트하고, 이를 Cloud Run 컨테이너 내부의 로컬 디렉터리처럼 액세스할 수 있습니다.

검색 증강 생성(RAG) 시스템 구축

Cloud Run 서비스를 데이터 소스와 연결하여 RAG 애플리케이션을 구축합니다.

벡터 데이터베이스: Cloud SQL(pgvector 포함), PostgreSQL용 AlloyDB, Memorystore for Redis 또는 기타 특화된 벡터 저장소에 연결하여 LLM 관련 컨텍스트를 제공합니다. Vertex AI와 벡터 검색을 사용해 RAG 기능을 갖춘 생성형 AI 애플리케이션을 Cloud Run에서 호스팅하고 데이터를 처리하는 인프라 예시를 참조하세요.
데이터 액세스: Cloud Storage, BigQuery, Firestore 또는 기타 API에서 데이터를 가져와 프롬프트를 보강합니다.

AI 기반 API 및 백엔드 호스팅

AI 기능이 내장된 API와 마이크로서비스를 만듭니다.

스마트 API: 자연어 이해, 감정 분석, 번역, 요약 등과 같은 작업에 LLM을 활용하는 API를 개발합니다.
자동화된 워크플로: 이벤트 또는 요청을 기반으로 AI 중심의 작업을 실행하는 서비스를 구축합니다.

아이디어 프로토타입 제작 및 실험

AI 아이디어를 빠르게 반복하며 실험합니다.

신속한 배포: Vertex AI Studio, Google AI Studio, Jupyter 노트북 등의 환경에서 만든 프로토타입을 최소한의 구성만으로 Cloud Run에 확장 가능한 배포 환경으로 빠르게 이전합니다.

트래픽 분할: Cloud Run의 트래픽 분할 기능을 사용하여 다양한 모델, 프롬프트, 구성에 대해 A/B 테스트를 수행하고, Google Cloud Observability를 사용해 지연 시간, 오류율, 비용 등의 측정항목을 모니터링하여 A/B 테스트의 성공 여부를 측정합니다.

다음 단계

AI 개념에 대한 숙련도와 AI 사용 사례에 따라 Cloud Run AI 리소스를 탐색해 보세요.

Cloud Run의 AI 사용 사례 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.