Google Cloud 는 다양한 세그먼트에서 가장 까다로운 GPU 가속 워크로드를 처리할 수 있는 세계적 수준의 인공지능(AI) 인프라를 제공하는 데 집중하고 있습니다. Google Cloud 에서 GPU를 사용하여 AI, 머신러닝(ML), 과학, 분석, 엔지니어링, 소비자, 엔터프라이즈 애플리케이션을 실행할 수 있습니다.
Google Cloud 는 NVIDIA와의 파트너십을 통해 최신 GPU를 제공하는 동시에 다양한 스토리지 및 네트워킹 옵션을 사용하여 소프트웨어 스택을 최적화합니다. 사용 가능한 GPU의 전체 목록은 GPU 플랫폼을 참조하세요.
다음 섹션에서는 Google Cloud에서 GPU를 사용할 경우의 이점을 간략하게 설명합니다.
GPU 가속 VM
Google Cloud에서는 니즈에 가장 적합한 방식으로 GPU에 액세스하고 프로비저닝할 수 있습니다. 성능을 극대화하는 데 이상적인 GPU와 네트워킹 기능이 사전 연결된 특수 가속기 최적화 머신 계열을 사용할 수 있습니다. A4X, A4, A3, A2, G2 머신 시리즈에서 사용할 수 있습니다.
여러 프로비저닝 옵션
다음 오픈소스 또는 Google Cloud 제품과 함께 가속기 최적화 머신 계열을 사용하여 클러스터를 프로비저닝할 수 있습니다.
Vertex AI
Vertex AI는 ML 모델 및 AI 애플리케이션을 학습 및 배포하는 데 사용할 수 있는 완전 관리형 머신 러닝(ML) 플랫폼입니다. Vertex AI 애플리케이션에서 GPU 가속 VM을 사용하여 애플리케이션의 성능을 향상할 수 있는 방법은 다음과 같습니다.
- 커스텀 학습 GKE 작업자 풀에서 GPU 지원 VM을 사용합니다.
- Vertex AI Model Garden에서 오픈소스 LLM 모델을 사용합니다.
- 예측 지연 시간을 줄입니다.
- Vertex AI Workbench 노트북 코드의 성능을 향상시킵니다.
- Colab Enterprise 런타임의 성능을 향상시킵니다.
AI 하이퍼컴퓨터
AI 하이퍼컴퓨터는 인공지능(AI) 및 머신러닝(ML) 워크로드를 지원하도록 최적화된 슈퍼컴퓨팅 시스템입니다. 성능에 최적화된 하드웨어, 개방형 소프트웨어, ML 프레임워크, 유연한 소비 모델로 구성된 통합 시스템입니다. AI 하이퍼컴퓨터는 동질한 단일 단위로 작동하는 대규모 가속기 및 네트워킹 리소스(최대 수만 개)를 배포하고 관리할 수 있도록 설계된 기능 및 서비스를 제공합니다. 이 옵션은 Google Kubernetes Engine(GKE) 및 Slurm 스케줄러와 통합된 밀집적으로 할당된 성능 최적화 인프라를 생성하는 데 적합합니다. 자세한 내용은 AI 하이퍼컴퓨터 개요를 참조하세요.
Cluster Director를 시작하려면 배포 전략 선택을 참조하세요.
Compute Engine
Compute Engine에서 GPU가 연결된 개별 VM이나 소규모 VM 클러스터를 만들고 관리할 수도 있습니다. 이 방법은 주로 그래픽 집약적인 워크로드, 시뮬레이션 워크로드 또는 소규모 ML 모델 학습 실행에 사용됩니다.
다음 표에는 GPU가 연결된 VM을 만드는 데 사용할 수 있는 메서드가 나와 있습니다.
배포 옵션 |
배포 가이드 |
서빙 및 단일 노드 워크로드용 VM 만들기 |
|
관리형 인스턴스 그룹(MIG) 만들기 |
|
VM 일괄 생성 |
|
단일 VM 만들기 |
|
가상 워크스테이션 만들기 |
Cloud Run
Cloud Run 인스턴스에 GPU를 구성할 수 있습니다. GPU는 Cloud Run에서 대규모 언어 모델을 사용하여 AI 추론 워크로드를 실행하는 데 이상적입니다.
Cloud Run의 GPU에서 AI 워크로드를 실행하려면 다음 리소스를 참조하세요.
- Cloud Run 서비스에 GPU 구성
- GPU를 사용하여 Cloud Run에 대규모 ML 모델 로드
- 튜토리얼: Ollama를 사용하여 Cloud Run GPU에서 LLM 추론 실행