AI 워크로드 튜토리얼 개요

이 페이지에서는 개념 증명 (POC) AI/ML 워크로드를 실행하는 데 도움이 되도록 Google Cloud 제품에 일반적인 AI 모델을 배포하는 전체 프로세스를 설명하는 AI 하이퍼컴퓨터 튜토리얼을 간략하게 설명합니다.

이 튜토리얼은 머신러닝 (ML) 엔지니어, 연구원, 플랫폼 관리자 및 운영자, 데이터 및 AI 전문가를 대상으로 합니다. 이 튜토리얼을 효과적으로 사용하려면 머신러닝 개념에 대한 기본적인 이해와 Google Cloud 서비스에 대한 숙련도가 있어야 합니다. AI 모델을 배포하고 관리한 경험이 있으면 이 콘텐츠를 이해하는 데 도움이 됩니다.

튜토리얼 카테고리

AI 워크로드 튜토리얼은 다음 카테고리로 구성됩니다.

  • GKE에서 vLLM으로 추론 실행
  • 미세 조정 실행
  • 학습 실행

Google Kubernetes Engine에서 vLLM으로 추론 실행

이 튜토리얼에서는 Google Kubernetes Engine (GKE)에서 vLLM 서빙 프레임워크를 사용하여 추론을 위해 대규모 언어 모델(LLM)을 배포하고 서빙하는 방법을 설명합니다. 효율적인 추론 워크로드를 위해 GKE의 컨테이너 조정 기능을 사용하는 방법을 알아봅니다. 이 튜토리얼에서는 Hugging Face를 사용하여 모델에 액세스하고, GKE 클러스터(예: Autopilot 모드)를 설정하고, 사용자 인증 정보를 처리하고, Gemma 3, Llama 4, Qwen3과 같은 LLM과 상호작용하기 위해 vLLM 컨테이너를 배포하는 방법을 다룹니다.

미세 조정 실행

이 튜토리얼에서는 GKE, Slurm 등 다양한Google Cloud 클러스터 유형에서 특정 작업을 위해 LLM을 미세 조정하는 방법을 설명합니다. 예를 들어 멀티 노드 및 멀티 GPU GKE 클러스터 (예: NVIDIA B200 GPU가 있는 A4 VM 인스턴스 사용)와 Slurm 클러스터에서 Gemma 3을 미세 조정할 수 있습니다. 커스텀 VM 이미지를 만들고, RDMA 네트워크를 구성하고, Hugging Face Accelerate 및 FSDP와 같은 라이브러리를 사용하여 분산 미세 조정 작업을 실행합니다. 일부 튜토리얼에서는 비전 관련 작업을 위해 Ray와 같은 프레임워크를 사용하는 방법도 다룹니다.

학습 실행

이 튜토리얼에서는 고성능 클러스터에서 LLM을 학습시키거나 사전 학습시키는 방법을 설명합니다. 예를 들어 A4 가상 머신을 사용하여 멀티 노드 및 멀티 GPU Slurm 클러스터에서 Qwen2와 같은 모델을 사전 학습하는 방법을 알아봅니다. Google Cloud 클러스터 툴킷을 사용하여 Slurm 클러스터를 배포하고, 커스텀 VM 이미지를 만들고, 공유 Filestore 인스턴스를 구성하고, 고속 RDMA 네트워킹을 구성하고, Hugging Face Accelerate를 사용하여 분산 사전 학습 작업을 실행합니다.

다음 단계

AI 하이퍼컴퓨터 튜토리얼을 살펴봅니다.