GKE의 AI/ML 워크로드 소개

이 페이지에서는 AI/ML 워크로드용 Google Kubernetes Engine (GKE)에 대한 개념적 개요를 제공합니다. GKE는 Kubernetes 오픈소스 컨테이너 조정 플랫폼을 Google 관리형으로 구현한 환경입니다.

Google Kubernetes Engine 은 인공지능 및 머신러닝 (AI/ML) 애플리케이션을 비롯한 모든 컨테이너화된 워크로드를 실행하기 위한 확장 가능하고 유연하며 비용 효율적인 플랫폼을 제공합니다. 대규모 기초 모델을 학습하거나, 대규모로 추론 요청을 처리하거나, 포괄적인 AI 플랫폼을 빌드하는 경우에도 GKE는 필요한 제어 및 성능을 제공합니다.

이 페이지는 AI/ML 워크로드를 실행하기 위한 확장 가능하고 자동화된 관리형 Kubernetes 솔루션을 찾는 데이터 및 AI 전문가, 클라우드 설계자, 운영자, 개발자를 대상으로 합니다. 일반적인 역할에 대해 자세히 알아보려면 일반 GKE 사용자 역할 및 태스크를 참조하세요.

GKE에서 AI/ML 워크로드 시작하기

GKE의 무료 등급을 사용하면 클러스터 관리 비용을 지불하지 않고도 Kubernetes를 시작할 수 있으므로 몇 분 내에 GKE 탐색을 시작할 수 있습니다.

  1. 콘솔에서 시작하기 Google Cloud

  2. 다음 빠른 시작을 사용해 보세요.
    • GKE의 추론: 사전 정의된 아키텍처를 사용하여 추론을 위해 GKE에 AI 대규모 언어 모델 (LLM)을 배포합니다.
    • GKE의 학습: GKE에 AI 학습 모델을 배포하고 Cloud Storage에 예측을 저장합니다.
  3. 플랫폼의 가속기 (GPU 및 TPU)를 계획하고 확보하기 위한 안내와 리소스가 포함된 AI/ML 워크로드용 가속기 사용 옵션 정보를 읽어보세요.

일반적인 사용 사례

GKE는 모든 AI 워크로드를 지원할 수 있는 통합 플랫폼을 제공합니다.

  • AI 플랫폼 빌드: 엔터프라이즈 플랫폼팀의 경우 GKE는 다양한 요구사항을 충족하는 표준화된 멀티 테넌트 플랫폼을 빌드할 수 있는 유연성을 제공합니다.
  • 지연 시간이 짧은 온라인 서빙: 생성형 AI 애플리케이션을 빌드하는 개발자의 경우 Inference Gateway가 포함된 GKE는 비용을 제어하면서 반응형 사용자 환경을 제공하는 데 필요한 최적화된 라우팅 및 자동 확장 기능을 제공합니다.

AI/ML 워크로드에 적합한 플랫폼 선택

Google Cloud 는 완전 관리형에서 완전 구성 가능에 이르기까지 ML 여정을 지원하는 다양한 AI 인프라 제품을 제공합니다. 적합한 플랫폼을 선택하는 것은 제어, 유연성, 관리 수준에 대한 구체적인 요구사항에 따라 달라집니다.

권장사항:

심층적인 제어, 이동성, 맞춤설정된 고성능 AI 플랫폼을 빌드하는 기능이 필요한 경우 GKE를 선택하세요.

  • 인프라 제어 및 유연성: 인프라를 세부적으로 제어해야 하거나, 커스텀 파이프라인을 사용해야 하거나, 커널 수준의 맞춤설정이 필요합니다.
  • 대규모 학습 및 추론: GKE의 확장 및 고성능을 사용하여 매우 큰 모델을 학습하거나 지연 시간이 최소화된 모델을 서빙하려고 합니다.
  • 대규모 비용 효율성: GKE와 Spot VM 및 Flex-start VM의 통합을 사용하여 비용을 효과적으로 관리함으로써 비용 최적화를 우선시하려고 합니다.
  • 이동성 및 개방형 표준: 공급업체 종속을 방지하고 Kubernetes를 사용하여 어디에서나 워크로드를 실행하려고 하며, 이미 기존 Kubernetes 전문 지식 또는 멀티 클라우드 전략이 있습니다.

다음 대안을 고려할 수도 있습니다.

Google Cloud 서비스 권장 용도
Vertex AI 개발을 가속화하고 인프라 관리를 오프로드하는 완전 관리형 엔드 투 엔드 플랫폼입니다. MLOps 및 빠른 가치 실현 시간에 중점을 둔 팀에 적합합니다. 자세한 내용은 자체 호스팅 GKE와 관리형 Vertex AI 호스트 AI 모델 중에서 선택을 시청하세요.
Cloud Run 0으로 확장할 수 있는 컨테이너화된 추론 워크로드를 위한 서버리스 플랫폼입니다. 이벤트 기반 애플리케이션 및 소규모 모델을 비용 효율적으로 서빙하는 데 적합합니다. 비교 분석은 GKE 및 Cloud Run을 참조하세요.

GKE가 AI/ML 워크로드를 지원하는 방법

GKE는 대규모 학습에서 지연 시간이 짧은 추론에 이르기까지 AI/ML 수명 주기의 각 단계를 간소화하고 가속화하는 특수 구성요소 모음을 제공합니다.

다음 다이어그램에서 GKE는 Google Cloud내에 있으며 Cloud Storage FUSE, 관리형 Lustre와 같은 다양한 클라우드 스토리지 옵션과 Cloud TPU, Cloud GPU와 같은 다양한 클라우드 인프라 옵션을 사용할 수 있습니다. GKE는 딥 러닝 (예: JAX 또는 TensorFlow), ML 오케스트레이션 (예: Jupyter 또는 Ray), LLM 추론(예: vLLM 또는 NVIDIA Dynamo)을 위한 오픈소스 소프트웨어 및 프레임워크와도 호환됩니다.
그림 1: AI/ML 워크로드를 위한 확장 가능한 관리형 플랫폼으로서의 GKE

다음 표에는 AI/ML 워크로드 또는 운영 목표를 지원하는 GKE 기능이 요약되어 있습니다.

AI/ML 워크로드 또는 작업 GKE 지원 방법 주요 특징
추론 및 서빙 지연 시간이 짧고 처리량이 높으며 비용 효율적인 탄력적인 AI 모델 서빙에 최적화되어 있습니다.
  • 가속기 유연성: GKE는 추론을 위해 GPUTPU 를 모두 지원합니다.
  • GKE Inference Gateway: AI 추론 워크로드에 맞게 특별히 지능형 라우팅 및 부하 분산을 제공하는 모델 인식 게이트웨이입니다.
  • GKE Inference Quickstart: 인기 있는 AI 모델에 대해 벤치마크된 프로필 세트를 제공하여 성능 분석 및 배포를 간소화하는 도구입니다.
  • GKE Autopilot: 클러스터 작업 및 용량 적정 크기 조정을 자동화하여 오버헤드를 줄이는 GKE 운영 모드입니다.
학습 및 파인 튜닝 비용을 최소화하면서 매우 큰 모델을 효율적으로 학습하는 데 필요한 확장 및 조정 기능을 제공합니다.
  • 더 빠른 시작 노드: 노드 시작 시간을 최대 80%까지 줄이는 GPU 워크로드에 맞게 특별히 설계된 최적화입니다.
  • 동적 워크로드 스케줄러를 기반으로 하는 flex-start 프로비저닝 모드: 단기 학습 워크로드에 대해 부족한 GPU 및 TPU 가속기를 확보하는 기능을 개선합니다.
  • Kueue: 일괄 워크로드의 리소스 할당, 스케줄링, 할당량 관리, 우선순위 지정을 관리하는 Kubernetes 기반 작업 큐 시스템입니다.
  • TPU 멀티슬라이스: 여러 TPU 슬라이스가 데이터 센터 네트워크 (DCN)를 통해 서로 통신하여 대규모 학습을 달성할 수 있도록 지원하는 하드웨어 및 네트워킹 아키텍처입니다.
통합 AI/ML 개발 분산 Python 애플리케이션을 확장하기 위한 오픈소스 프레임워크인 Ray에 대한 관리형 지원입니다.
  • GKE의 Ray 부가기능: Kubernetes 인프라를 추상화하여 코드 변경을 최소화하면서 대규모 데이터 전처리, 분산 학습, 온라인 서빙과 같은 워크로드를 확장할 수 있습니다.

다음 단계