Cloud Run에서의 AI/ML 조정 문서

Cloud Run은 AI/ML 워크로드를 포함한 컨테이너화된 애플리케이션을 Google의 확장 가능한 인프라에서 직접 실행할 수 있는 완전 관리형 플랫폼입니다. 이 플랫폼은 인프라를 대신 관리하므로, Cloud Run 리소스를 운영, 구성, 확장하는 데 시간을 들이지 않고 코드 작성에 집중할 수 있습니다. Cloud Run의 기능은 다음과 같은 이점을 제공합니다.

  • 하드웨어 가속기: 대규모 추론을 위해 GPU에 액세스하고 관리할 수 있습니다.
  • 프레임워크 지원: Hugging Face, TGI, vLLM 등 이미 익숙하고 신뢰할 수 있는 모델 서빙 프레임워크와 통합할 수 있습니다.
  • 관리형 플랫폼: 유연성을 유지하면서 AI/ML 전체 수명 주기를 자동화, 확장, 보안 강화할 수 있는 관리형 플랫폼의 모든 이점을 제공합니다.

튜토리얼과 권장사항을 통해 Cloud Run이 AI/ML 워크로드를 어떻게 최적화할 수 있는지 알아보세요.

  • Gemini 2.0 Flash Thinking 이용
  • AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
  • 자동 청구, 약정 없음

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.

사용자 주도형 학습, 사용 사례, 참조 아키텍처, 코드 샘플을 통해 Google Cloud 서비스 사용 및 연결 방법의 예시를 살펴보세요.
사용 사례
사용 사례

실시간 AI 추론을 위해 Cloud Run에서 NVIDIA L4 GPU를 사용하세요. 여기에는 빠른 콜드 스타트와 대규모 언어 모델(LLM)을 위한 Scale-to-zero 이점이 포함됩니다.

GPU LLM

사용 사례
사용 사례

프로덕션에 즉시 사용 가능한 AI 애플리케이션에 Cloud Run을 사용하는 방법을 알아봅니다. 이 가이드에서는 프롬프트에 대한 A/B 테스트를 위한 트래픽 분할, RAG(검색 증강 생성) 패턴, 벡터 저장소 연결성과 같은 사용 사례를 설명합니다.

AI 애플리케이션 트래픽 분할(A/B 테스트) RAG 패턴 벡터 저장소 벡터 저장소 연결성

사용 사례
사용 사례

Google AI Studio에서 Cloud Run 및 Cloud Run MCP(모델 컨텍스트 프로토콜) 서버로 한 번의 클릭으로 배포하여 IDE 또는 에이전트 SDK에서 AI 에이전트를 사용 설정하고 앱을 배포합니다.

MCP 서버 배포 Cloud Run

사용 사례
사용 사례

비용 효율적인 LLM 서빙을 위해 NVIDIA L4 GPU를 Cloud Run과 통합하세요. 이 가이드에서는 Scale-to-zero 방법을 강조하고, Ollama와 같은 Gemma 2 모델 배포 단계를 제공합니다.

LLM GPU Ollama 비용 최적화

사용 사례
사용 사례

Cloud Storage FUSE를 사용하여 대규모 모델 파일을 컨테이너 이미지에서 분리하세요. 이러한 분리를 통해 빌드 시간을 개선하고 업데이트를 단순화하며, 보다 확장 가능한 서빙 아키텍처를 만들 수 있습니다.

모델 패키징 Cloud Storage FUSE 권장사항 대규모 모델

사용 사례
사용 사례

ML 서빙에 최적화된 Cog 프레임워크를 사용하여 컨테이너의 패키징 및 Cloud Run으로의 배포를 간소화하세요.

Cog 모델 패키징 배포 튜토리얼

사용 사례
사용 사례

Cloud Run을 사용해 가벼운 ML 추론을 수행하고, Cloud Logging, BigQuery와 같은 GCP 기본 서비스를 활용하여 비용 효율적인 모니터링 스택을 구축하세요.

모니터링 MLOps 비용 효율성 추론

사용 사례
사용 사례

Vertex AI 생성형 AI API를 호출하는 간단한 Flask 애플리케이션을 확장 가능한 Cloud Run 서비스에 배포하세요.

생성형 AI Vertex AI Flask 배포

사용 사례
사용 사례

AI Studio에서 Gemma Python 코드를 사용하고, Secret Manager를 활용해 API 키를 안전하게 처리하면서 이를 Cloud Run 인스턴스에 직접 배포하세요.

AI Studio Gemma 배포 튜토리얼

관련 동영상