이 문서에서는 다양한 인공지능 (AI), 머신러닝 (ML), 고성능 컴퓨팅 (HPC) 워크로드에 가장 적합한 가속기, 소비 유형, 스토리지 서비스, 배포 도구를 추천합니다. 이 문서를 사용하여 워크로드에 가장 적합한 배포를 식별하세요.
워크로드 개요
AI Hypercomputer 아키텍처는 다음 사용 사례를 지원합니다.
| 워크로드 | 설명 | 권장사항 |
|---|---|---|
| 파운데이션 모델 사전 학습 | 여기에는 대규모 데이터 세트를 사용하여 언어 모델을 빌드하는 작업이 포함됩니다. 파운데이션 모델을 사전 학습한 결과는 일반 작업을 잘 수행하는 새로운 모델입니다. 모델은 크기에 따라 다음과 같이 분류됩니다.
|
모델 사전 학습에 대한 권장사항을 참고하세요. |
| 세부 조정 | 여기에는 학습된 모델을 가져와 전문 데이터 세트나 기타 기법을 사용하여 특정 작업을 수행하도록 조정하는 것이 포함됩니다. 일반적으로 대규모 모델에서 미세 조정이 실행됩니다. | 모델 미세 조정 권장사항을 참고하세요. |
| 추론 또는 서빙 | 여기에는 학습된 모델이나 미세 조정된 모델을 가져와서 사용자가 소비하거나 애플리케이션이 소비할 수 있도록 하는 작업이 포함됩니다. 추론 워크로드는 모델 크기에 따라 다음과 같이 분류됩니다.
|
추론을 위한 권장사항을 참고하세요. |
| 소형~중형 모델 머신러닝 | 여기에는 일반적으로 더 전문화된 작업을 위해 크기와 복잡성이 더 작은 ML 모델을 학습시키고 제공하는 것이 포함됩니다. | 중소 규모 모델 머신러닝 권장사항을 참고하세요. |
| HPC | 단일 워크스테이션, 서버 또는 컴퓨터보다 높은 성능을 얻기 위해 컴퓨팅 리소스를 집계하는 방식입니다. HPC는 학술 연구, 과학, 설계, 시뮬레이션, 비즈니스 인텔리전스의 문제를 해결하는 데 사용됩니다. | HPC 권장사항을 참고하세요. |
모델 사전 학습에 대한 권장사항
파운데이션 모델을 사전 학습하려면 대규모 액셀러레이터 클러스터가 필요하며, 이 클러스터는 지속적으로 대량의 데이터를 읽고 순방향 및 역방향 패스를 통해 가중치를 조정하여 데이터로부터 학습합니다. 이러한 학습 작업은 한 번에 몇 주 또는 몇 달 동안 실행됩니다.
다음 섹션에서는 모델 사전 학습 시 사용할 가속기, 권장 소비 유형, 스토리지 서비스를 간략히 설명합니다.
추천 가속기
Google Cloud에서 기본 모델을 사전 학습시키려면 A4X, A4 또는 A3 가속기 최적화 머신을 사용하고 오케스트레이터를 사용하여 이러한 머신을 배포하는 것이 좋습니다. 이러한 대규모 액셀러레이터 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 자세한 내용은 다음 표에서 선택한 클러스터의 해당 배포 가이드를 참고하세요.
| 워크로드 | 권장사항 | 클러스터 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 오케스트레이터 | ||
|
|
GKE | 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기 |
| Slurm | |||
|
A3 Mega | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | |||
|
A3 High | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | A3 High Slurm 클러스터 배포 | ||
권장 소비 유형
최소 비용으로 대규모 액셀러레이터 클러스터를 확보하려면 예약을 사용하고 장기간 예약하는 것이 좋습니다. 소비 유형에 대한 자세한 내용은 소비 옵션 선택을 참고하세요.
권장 스토리지 서비스
사전 학습의 경우 학습 데이터가 지속적으로 빠르게 준비되어야 합니다. 또한 학습 중인 모델을 자주 빠르게 체크포인트하는 것이 좋습니다. 이러한 요구사항 대부분의 경우 Google Cloud Managed Lustre를 사용하는 것이 좋습니다. 또는 Cloud Storage FUSE 및 Anywhere Cache가 사용 설정된 Cloud Storage를 사용할 수 있습니다. 스토리지 옵션에 대한 자세한 내용은 스토리지 서비스를 참고하세요.
모델 미세 조정 권장사항
대규모 파운데이션 모델을 세부 조정하려면 소규모 액셀러레이터 클러스터가 필요하며, 적당한 양의 데이터를 읽고 특정 작업을 수행하도록 모델을 조정해야 합니다. 이러한 미세 조정 작업은 며칠 또는 몇 주 동안 실행됩니다.
다음 섹션에서는 모델을 미세 조정할 때 사용할 액셀러레이터, 권장 소비 유형, 스토리지 서비스를 간략하게 설명합니다.
추천 가속기
Google Cloud에서 모델을 미세 조정하려면 A4X, A4 또는 A3 가속기 최적화 머신을 사용하고 조정자를 사용하여 이러한 머신을 배포하는 것이 좋습니다.
이러한 가속기 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 자세한 내용은 다음 표에서 선택한 머신 유형에 해당하는 클러스터 배포 가이드를 참고하세요.
| 워크로드 | 권장사항 | 클러스터 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 오케스트레이터 | ||
| 대규모 모델 미세 조정 |
|
GKE | 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기 |
| Slurm | |||
| 대규모 모델 미세 조정 | A3 Mega | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | |||
| 대규모 모델 미세 조정 | A3 High | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | A3 High Slurm 클러스터 배포 | ||
권장 소비 유형
워크로드 미세 조정의 경우 캘린더 모드의 미래용 예약을 사용하여 리소스를 프로비저닝하는 것이 좋습니다. 사용 옵션에 관한 자세한 내용은 사용 옵션 선택을 참고하세요.
권장 스토리지 서비스
모델 미세 조정의 경우 특히 미세 조정 성능의 읽기 속도와 관련하여 필요한 데이터 양이 상당할 수 있습니다. 미세 조정되는 모델의 체크포인트를 자주 빠르게 지정하는 것이 좋습니다. 사전 학습과 마찬가지로 대부분의 사용 사례에는 Google Cloud 관리 Lustre가 권장됩니다. 또는 Cloud Storage FUSE 및 Anywhere Cache가 사용 설정된 Cloud Storage를 사용할 수 있습니다. 스토리지 옵션에 대한 자세한 내용은 스토리지 서비스를 참고하세요.
추론을 위한 권장사항
다음 섹션에서는 추론을 실행할 때 사용할 가속기, 권장 소비 유형, 스토리지 서비스를 간략하게 설명합니다.
추천 가속기
추론에 권장되는 가속기는 멀티 호스트 프런티어 또는 대규모 모델 추론을 실행하는지 아니면 싱글 호스트 프런티어 추론을 실행하는지에 따라 다릅니다.
권장 가속기 (다중 호스트)
Google Cloud에서 멀티 호스트 프런티어 또는 대규모 모델 추론을 실행하려면 A4X, A4 또는 A3 가속기 최적화 머신을 사용하고 오케스트레이터를 사용하여 이러한 머신을 배포하는 것이 좋습니다. 이러한 가속기 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 이러한 클러스터를 시작할 수 있도록 권장되는 각 머신 유형의 클러스터 배포 가이드 링크가 제공됩니다.
| 워크로드 | 권장사항 | 클러스터 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 오케스트레이터 | ||
| 멀티 호스트 프런티어 추론 |
|
GKE | 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기 |
| Slurm | |||
| 멀티 호스트 프런티어 추론 | A3 Mega | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | |||
| 대규모 모델 추론 | A3 High | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | A3 High Slurm 클러스터 배포 | ||
권장 가속기 (단일 호스트)
다음 표에는 단일 호스트 프런티어 추론을 실행할 때 사용할 것을 권장하는 액셀러레이터가 나와 있습니다. 이러한 VM을 시작할 수 있도록 권장되는 각 머신 유형의 VM 배포 가이드 링크가 제공됩니다.
| 워크로드 | 권장사항 | VM 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 오케스트레이터 | ||
| 단일 호스트 프런티어 추론 |
|
해당 사항 없음 | AI 최적화 인스턴스 만들기 |
| 단일 호스트 프런티어 추론 | A3 High | 해당 사항 없음 | GPUDirect-TCPX가 사용 설정된 A3 VM 만들기 |
권장 소비 유형
추론의 경우 장기 실행 예약 또는 캘린더 모드의 미래용 예약을 사용하는 것이 좋습니다. 사용 옵션에 관한 자세한 내용은 사용 옵션 선택을 참고하세요.
권장 스토리지 서비스
추론의 경우 여러 서버에서 추론 바이너리와 가중치를 빠르게 로드하려면 빠른 데이터 읽기가 필요합니다. 모델 로드에는 Cloud Storage FUSE 및 Anywhere Cache가 사용 설정된 Cloud Storage를 사용하는 것이 좋습니다. Anywhere Cache는 모델 로드 시간을 단축하고 네트워크 이그레스 요금도 절감하는 영역 데이터 캐싱 솔루션을 제공합니다. Cloud Storage FUSE와 함께 사용하면 Anywhere Cache는 여러 영역과 멀티 리전에서 모델을 로드하는 데 특히 유용합니다. 학습에 Google Cloud Managed Lustre를 사용하는 경우 모델 로드에도 Google Cloud Managed Lustre를 사용하는 것이 좋습니다. Google Cloud Managed Lustre는 빠른 데이터 읽기를 지원하며 지속적인 영역 스토리지 솔루션이기 때문입니다. 스토리지 옵션에 대한 자세한 내용은 스토리지 서비스를 참고하세요.
중소 규모 모델 머신러닝 권장사항
중소 규모 모델이 포함된 머신러닝 워크로드의 경우 가격과 성능 간의 최적의 균형을 달성하는 것이 주요 고려사항입니다.
추천 가속기
다음 표에는 소규모에서 중간 규모 모델 ML 워크로드에 사용할 권장 가속기가 나와 있습니다.
| 워크로드 | 권장사항 | VM 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 오케스트레이터 | ||
| 소규모~중규모 모델 머신러닝 |
|
해당 사항 없음 | G2 또는 G4 인스턴스 만들기 |
HPC 권장사항
HPC 워크로드의 경우 가속기 최적화 머신 시리즈 또는 컴퓨팅 최적화 머신 시리즈가 적합합니다. 가속기 최적화 머신 시리즈를 사용하는 경우 가장 적합한 항목은 GPU로 오프로드해야 하는 컴퓨팅 부하에 따라 달라집니다. HPC 워크로드 권장사항의 자세한 목록은 HPC 워크로드 실행을 위한 권장사항을 참고하세요.
권장사항 요약
다음은 다양한 워크로드에 권장되는 액셀러레이터, 소비 유형, 스토리지 서비스에 대한 권장사항을 요약한 것입니다.
리소스 |
권장사항 |
|---|---|
| 모델 사전 학습 | |
| 머신 계열 | 가속기 최적화 머신 유형(A4, A3 Ultra, A3 Mega 또는 A3 High) 중 하나를 사용합니다. |
| 소비 유형 | 예약 사용 |
| 스토리지 | Google Cloud Managed Lustre 또는 Cloud Storage FUSE와 같은 Google Cloud 관리형 서비스 사용 |
| 모델 미세 조정 | |
| 머신 계열 | A4X, A4 또는 A3 가속기 최적화 머신 유형 사용 |
| 소비 유형 | 예약 사용 |
| 스토리지 | Google Cloud Managed Lustre 또는 Cloud Storage FUSE와 같은 Google Cloud 관리형 서비스 사용 |
| 추론 | |
| 머신 계열 | 가속기 최적화 머신 유형(A4, A3 Ultra, A3 Mega 또는 A3 High) 중 하나를 사용합니다. |
| 소비 유형 | 예약 사용 |
| 스토리지 | Google Cloud Managed Lustre 또는 Cloud Storage FUSE와 같은 Google Cloud 관리형 서비스 사용 |
| HPC | |
| HPC 워크로드 실행을 위한 권장사항의 요약 섹션을 참고하세요. | |