Cloud Run에서의 AI/ML 조정 문서

Cloud Run은 AI/ML 워크로드를 포함한 컨테이너화된 애플리케이션을 Google의 확장 가능한 인프라에서 직접 실행할 수 있는 완전 관리형 플랫폼입니다. 이 플랫폼은 인프라를 대신 관리하므로, Cloud Run 리소스를 운영, 구성, 확장하는 데 시간을 들이지 않고 코드 작성에 집중할 수 있습니다. Cloud Run의 기능은 다음과 같은 이점을 제공합니다.

하드웨어 가속기: 대규모 추론을 위해 GPU에 액세스하고 관리할 수 있습니다.
프레임워크 지원: Hugging Face, TGI, vLLM 등 이미 익숙하고 신뢰할 수 있는 모델 서빙 프레임워크와 통합할 수 있습니다.
관리형 플랫폼: 유연성을 유지하면서 AI/ML 전체 수명 주기를 자동화, 확장, 보안 강화할 수 있는 관리형 플랫폼의 모든 이점을 제공합니다.

튜토리얼과 권장사항을 통해 Cloud Run이 AI/ML 워크로드를 어떻게 최적화할 수 있는지 알아보세요.

무료로 시작하기

무료 크레딧 $300로 개념 증명 시작

Gemini 2.0 Flash Thinking 이용
AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
자동 청구, 약정 없음

무료 제품 혜택 보기

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.

문서 리소스

빠른 시작 및 가이드를 찾고 주요 참조를 검토하며 일반적인 문제에 대한 도움을 받을 수 있습니다.

AI 솔루션 실행

GPU를 사용한 추론

튜토리얼
Gemma 3 및 Ollama를 사용하여 Cloud Run GPU에서 LLM 추론 실행
사용 안내
Cloud Run에서 Gemma 3 실행
튜토리얼
Hugging Face를 사용하여 Cloud Run GPU에서 LLM 추론 실행
권장사항
권장사항: GPU를 사용하는 Cloud Run 서비스
튜토리얼
Cloud Run 작업을 사용하여 GPU로 LLM 미세 조정
튜토리얼
Cloud Run 작업에서 FFmpeg를 사용한 GPU 가속 동영상 트랜스코딩
권장사항
권장사항: GPU를 사용하는 Cloud Run 작업
권장사항
권장사항: GPU를 사용하는 Cloud Run 작업자 풀

문제 해결

사용자 주도형 학습, 사용 사례, 참조 아키텍처, 코드 샘플을 통해 Google Cloud 서비스 사용 및 연결 방법의 예시를 살펴보세요.

사용 사례

NVIDIA GPU를 사용해 Cloud Run에서 AI 추론 애플리케이션 실행

실시간 AI 추론을 위해 Cloud Run에서 NVIDIA L4 GPU를 사용하세요. 여기에는 빠른 콜드 스타트와 대규모 언어 모델(LLM)을 위한 Scale-to-zero 이점이 포함됩니다.

GPU LLM

자세히 알아보기

사용 사례

Cloud Run: AI 애플리케이션을 프로덕션에 가장 빠르게 배포하는 방법

프로덕션에 즉시 사용 가능한 AI 애플리케이션에 Cloud Run을 사용하는 방법을 알아봅니다. 이 가이드에서는 프롬프트에 대한 A/B 테스트를 위한 트래픽 분할, RAG(검색 증강 생성) 패턴, 벡터 저장소 연결성과 같은 사용 사례를 설명합니다.

AI 애플리케이션 트래픽 분할(A/B 테스트) RAG 패턴 벡터 저장소 벡터 저장소 연결성

자세히 알아보기

사용 사례

AI 배포 간소화: AI Studio 또는 MCP 호환 AI 에이전트에서 Cloud Run으로 앱 배포

Google AI Studio에서 Cloud Run 및 Cloud Run MCP(모델 컨텍스트 프로토콜) 서버로 한 번의 클릭으로 배포하여 IDE 또는 에이전트 SDK에서 AI 에이전트를 사용 설정하고 앱을 배포합니다.

MCP 서버 배포 Cloud Run

자세히 알아보기

사용 사례

GPU 성능으로 Cloud Run 강화: AI 워크로드를 위한 새로운 시대

비용 효율적인 LLM 서빙을 위해 NVIDIA L4 GPU를 Cloud Run과 통합하세요. 이 가이드에서는 Scale-to-zero 방법을 강조하고, Ollama와 같은 Gemma 2 모델 배포 단계를 제공합니다.

LLM GPU Ollama 비용 최적화

자세히 알아보기

사용 사례

아직도 컨테이너에 AI 모델을 패키징하고 계신가요? 대신 Cloud Run에서 이렇게 하세요

Cloud Storage FUSE를 사용하여 대규모 모델 파일을 컨테이너 이미지에서 분리하세요. 이러한 분리를 통해 빌드 시간을 개선하고 업데이트를 단순화하며, 보다 확장 가능한 서빙 아키텍처를 만들 수 있습니다.

모델 패키징 Cloud Storage FUSE 권장사항 대규모 모델

자세히 알아보기

사용 사례

Cog를 사용해 머신러닝 모델을 Google Cloud에 패키징 및 배포

ML 서빙에 최적화된 Cog 프레임워크를 사용하여 컨테이너의 패키징 및 Cloud Run으로의 배포를 간소화하세요.

Cog 모델 패키징 배포 튜토리얼

자세히 알아보기

사용 사례

Cloud Run으로 ML 모델 배포 및 모니터링 - 가볍고, 확장 가능하며, 비용 효율적

Cloud Run을 사용해 가벼운 ML 추론을 수행하고, Cloud Logging, BigQuery와 같은 GCP 기본 서비스를 활용하여 비용 효율적인 모니터링 스택을 구축하세요.

모니터링 MLOps 비용 효율성 추론

자세히 알아보기

사용 사례

Cloud Run을 사용해 웹사이트에 Google Cloud 생성형 AI 앱 배포

Vertex AI 생성형 AI API를 호출하는 간단한 Flask 애플리케이션을 확장 가능한 Cloud Run 서비스에 배포하세요.

생성형 AI Vertex AI Flask 배포

자세히 알아보기

사용 사례

AI Studio에서 Cloud Run으로 Gemma 직접 배포

AI Studio에서 Gemma Python 코드를 사용하고, Secret Manager를 활용해 API 키를 안전하게 처리하면서 이를 Cloud Run 인스턴스에 직접 배포하세요.

AI Studio Gemma 배포 튜토리얼

자세히 알아보기

Cloud Run에서의 AI/ML 조정 문서

무료 크레딧 $300로 개념 증명 시작

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI 솔루션 실행

GPU를 사용한 추론

문제 해결

NVIDIA GPU를 사용해 Cloud Run에서 AI 추론 애플리케이션 실행

Cloud Run: AI 애플리케이션을 프로덕션에 가장 빠르게 배포하는 방법

AI 배포 간소화: AI Studio 또는 MCP 호환 AI 에이전트에서 Cloud Run으로 앱 배포

GPU 성능으로 Cloud Run 강화: AI 워크로드를 위한 새로운 시대

아직도 컨테이너에 AI 모델을 패키징하고 계신가요? 대신 Cloud Run에서 이렇게 하세요

Cog를 사용해 머신러닝 모델을 Google Cloud에 패키징 및 배포

Cloud Run으로 ML 모델 배포 및 모니터링 - 가볍고, 확장 가능하며, 비용 효율적

Cloud Run을 사용해 웹사이트에 Google Cloud 생성형 AI 앱 배포

AI Studio에서 Cloud Run으로 Gemma 직접 배포

관련 동영상