AI 하이퍼컴퓨터는 인공지능(AI) 및 머신러닝(ML) 워크로드를 지원하도록 최적화된 슈퍼컴퓨팅 시스템입니다. 성능에 최적화된 하드웨어, 개방형 소프트웨어, ML 프레임워크, 유연한 소비 모델로 구성된 통합 시스템입니다.
AI 하이퍼컴퓨터 시스템은 AI 사전 학습, 조정, 서빙 전반에서 효율성과 생산성을 높이기 위해 권장사항과 시스템 수준 설계를 통합합니다.
시스템 아키텍처
AI 하이퍼컴퓨터는 다음 레이어로 구성됩니다.
- 성능 최적화 인프라: 워크로드를 지원하는 컴퓨팅 기능을 제공하는 액셀러레이터, 네트워킹, 스토리지 리소스가 포함됩니다.
- 오픈 소프트웨어: TensorFlow, PyTorch, JAX와 같은 널리 사용되는 머신러닝 프레임워크의 최적화된 버전 Google에서는 클러스터에 프로비저닝된 컴퓨팅 리소스를 활용하는 데 필요한 필수 소프트웨어로 구성된 운영체제 (OS)를 제공합니다. 대량의 가속기를 단일 단위로 배포하고 관리하기 위해 Cluster Director, Google Kubernetes Engine 또는 Slurm을 사용할 수 있습니다. 또는 Compute Engine API를 사용하여 리소스를 수동으로 배포할 수 있습니다.
- 소비 옵션: 특정 요구사항 및 워크로드 패턴에 따라 비용과 하드웨어 가용성을 최적화하는 클러스터를 프로비저닝하는 여러 옵션
이점
AI Hypercomputer에는 다음과 같은 이점이 있습니다.
- 높은 성능 및 굿풋: Goodput 측정항목은 ML 생산성을 측정합니다. AI 하이퍼컴퓨터는 스케줄링, 런타임, 조정 레이어를 최적화합니다.
- 빠르게 시작: AI 하이퍼컴퓨터는 가장 까다로운 AI 및 ML 워크로드를 지원하도록 구성된 대규모 가속기 최적화 리소스를 안정적으로 반복해서 배포할 수 있는 Cluster Director 및 블루프린트와 같은 도구를 제공합니다.
사용 사례
AI Hypercomputer는 다음 사용 사례의 요구사항을 충족하도록 설계되었습니다.
사용 사례 |
예시 워크로드 |
|---|---|
대규모 AI 및 ML 워크로드 |
|
고성능 컴퓨팅(HPC) |
|
다음 단계
- 성능에 최적화된 인프라를 검토합니다.
- GPU 네트워킹 개요를 검토합니다.
- 소비 모델을 검토합니다.
- 클러스터 관리에 대해 알아봅니다.