GKE 클러스터에 AI 규정 준수가 중요한 이유
Kubernetes AI 적합성 프로그램은 Kubernetes 클러스터가 AI 및 ML 워크로드를 안정적이고 효율적으로 실행할 수 있도록 표준을 정의합니다. AI/ML용 Kubernetes 클러스터를 설정하는 것은 복잡할 수 있습니다. 여기에는 특정 드라이버 설치, API 버전, 예기치 않은 버그의 잠재적 해결 방법을 탐색하는 작업이 포함되는 경우가 많습니다.
GKE와 같은 규정을 준수하는 플랫폼은 이러한 기본 복잡성을 처리하도록 설계되어 있어 설정부터 배포까지의 경로를 제공합니다. 규정을 준수하는 GKE 버전을 기반으로 하면 환경이 다음과 같은 기준에 최적화되어 있음을 확신할 수 있습니다.
- 확장성: 수요에 따라 AI/ML 워크로드를 효율적으로 확장 및 축소합니다.
- 성능: GPU 및 TPU를 비롯한 하드웨어를 최대한 활용합니다.
- 이식성: 최소한의 변경사항으로 규정을 준수하는 Kubernetes 클러스터에서 AI/ML 애플리케이션을 실행합니다.
- 상호 운용성: AI/ML 생태계의 다른 도구 및 프레임워크와 통합됩니다.
AI 규정을 준수하는 GKE 클러스터를 만드는 방법
AI 규정을 준수하는 GKE 클러스터를 만들려면 다음을 수행해야 합니다.
ai-conformanceGitHub 저장소에서 규정을 준수하는 버전 목록을 확인하세요.- 규정을 준수하는 버전(예: 1.34.0-gke.1662000 이상)에서 실행되는 Standard 모드로 GKE 클러스터를 만듭니다.
- 클러스터에서 Gateway API를 사용 설정합니다.
이제 클러스터가 Kubernetes AI 적합성 필수 요구사항을 충족합니다.
GKE가 Kubernetes AI 규정 준수 플랫폼인 이유
GKE는 AI 규정 준수를 위한 기본 요구사항을 관리하므로 사용자가 직접 관리하지 않아도 됩니다. 다음 표에서는 AI/ML 워크로드의 주요 기능을 보여줍니다. 이러한 기능 중 일부는 기본적으로 사용 설정되지만, 갱 스케줄링을 위한 Kueue와 같은 기능은 AI/ML 워크로드를 향상하기 위해 설치할 수 있는 선택적 추가 기능입니다.
Kubernetes AI 적합성 프로그램은 AI/ML 생태계와 함께 발전하도록 설계되었습니다.
요구사항은 생태계의 상태에 따라 각 Kubernetes 부 버전 출시와 함께 업데이트됩니다. 특정 부버전의 전체 요구사항은 ai-conformance GitHub 저장소에서 docs/AIConformance-MINOR_VERSION.yaml 파일을 참고하세요. 여기서 MINOR_VERSION은 v1.34와 같은 특정 버전입니다.
| 요구사항 | |
|---|---|
| 동적 리소스 할당 (DRA) | 개수를 넘어 더 유연하고 세분화된 리소스 요청을 지원합니다. 자세한 내용은 동적 리소스 할당 정보를 참고하세요. |
| Kubernetes Gateway API | 가중치 기반 트래픽 분할 및 헤더 기반 라우팅과 같은 기능을 지원하는 추론 서비스의 고급 트래픽 관리를 제공합니다. 자세한 내용은 GKE Gateway API 정보를 참고하세요. |
| 갱(Gang) 예약 | 분산 AI 워크로드의 전체 또는 없음 스케줄링을 보장합니다. GKE를 사용하면 하나 이상의 gang scheduling 솔루션을 설치하고 성공적으로 작동할 수 있습니다. 예를 보려면 Kueue를 사용하여 일괄 시스템 배포를 참고하세요. |
| 액셀러레이터용 클러스터 자동 확장 처리 | 이러한 액셀러레이터를 요청하는 대기 중인 포드에 따라 특정 액셀러레이터 유형이 포함된 노드 그룹을 확장 및 축소합니다. 자세한 내용은 다음을 참고하세요.
|
| 액셀러레이터용 수평형 포드 자동 확장 처리 (HPA) | 가속기를 활용하는 포드에 대해 올바르게 작동합니다. 여기에는 AI/ML 워크로드와 관련된 맞춤 측정항목을 기반으로 이러한 포드를 확장하는 기능이 포함됩니다. 자세한 내용은 다음을 참고하세요. |
| 액셀러레이터 성능 측정항목 | 표준화된 머신 판독 가능 형식 측정항목 엔드포인트를 사용하여 세부적인 성능 측정항목을 노출합니다. 자세한 내용은 다음을 참고하세요. |
| 표준화된 모니터링 | 표준 형식 (예: Prometheus 설명 형식)으로 측정항목을 노출하는 워크로드에서 측정항목을 검색하고 수집할 수 있는 모니터링 시스템을 제공합니다. 자세한 내용은 GKE의 모니터링 가능성을 참고하세요. |
| AI 운영자 지원 | 커스텀 리소스 정의 (CRD)가 있는 복잡한 AI 연산자를 하나 이상 플랫폼에 설치할 수 있고 안정적으로 작동함을 증명해야 합니다. 자세한 내용은 Google Kubernetes Engine에서 Kubeflow 및 Ray를 사용하여 머신러닝 플랫폼 빌드를 참고하세요. |
다음 단계
- Kubernetes AI 적합성 저장소에서 프로그램에 대해 자세히 알아보세요.
- GKE의 AI/ML 워크로드 소개를 읽어보세요.
- GKE의 AI 모델 추론에 대해 자세히 알아보고 추론 예시를 사용해 보세요.
- GKE Standard 모드에서 GPU로 모델을 학습시키는 예시를 사용해 보세요.