Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI 하이퍼컴퓨터 개요

AI 하이퍼컴퓨터는 인공지능(AI) 및 머신러닝(ML) 워크로드를 지원하도록 최적화된 슈퍼컴퓨팅 시스템입니다. 성능에 최적화된 하드웨어, 개방형 소프트웨어, ML 프레임워크, 유연한 소비 모델로 구성된 통합 시스템입니다.

AI 하이퍼컴퓨터 시스템은 AI 사전 학습, 조정, 서빙 전반에서 효율성과 생산성을 높이기 위해 권장사항과 시스템 수준 설계를 통합합니다.

시스템 아키텍처

AI 하이퍼컴퓨터는 다음 레이어로 구성됩니다.

성능 최적화 인프라: 워크로드를 지원하는 컴퓨팅 기능을 제공하는 액셀러레이터, 네트워킹, 스토리지 리소스가 포함됩니다.
오픈 소프트웨어: TensorFlow, PyTorch, JAX와 같은 인기 머신러닝 프레임워크의 최적화된 버전입니다. Google에서는 클러스터에서 프로비저닝된 컴퓨팅 리소스를 활용하는 데 필요한 필수 소프트웨어로 구성된 운영체제 (OS)를 제공합니다. 다수의 액셀러레이터를 단일 단위로 배포하고 관리하려면 Cluster Director, Google Kubernetes Engine 또는 Slurm을 사용하면 됩니다. 또는 Compute Engine API를 사용하여 리소스를 수동으로 배포할 수도 있습니다.
소비 옵션: 특정 요구사항 및 워크로드 패턴에 따라 비용과 하드웨어 가용성을 최적화하는 클러스터를 프로비저닝하는 여러 옵션

AI 하이퍼컴퓨터에는 다음과 같은 이점이 있습니다.

고성능 및 굿풋: 굿풋 측정항목은 ML 생산성을 측정합니다. AI 하이퍼컴퓨터는 스케줄링, 런타임, 조정 레이어를 최적화합니다.
빠르게 시작: AI 하이퍼컴퓨터는 가장 까다로운 AI 및 ML 워크로드를 지원하도록 구성된 대규모 가속기 최적화 리소스를 안정적으로 반복적으로 배포할 수 있는 Cluster Director 및 블루프린트와 같은 도구를 제공합니다.
성능에 최적화된 스토리지 레이어: Cloud Storage 및 Google Cloud Managed Lustre와 같은 고성능 스토리지 서비스를 사용하여 AI 및 ML 워크로드에 확장 가능하고 처리량이 높으며 지연 시간이 짧은 스토리지를 제공합니다.

AI 하이퍼컴퓨터는 다음 사용 사례의 요구사항을 충족하도록 설계되었습니다.

사용 사례	예시 워크로드
대규모 AI 및 ML 워크로드	생성형 AI 분산 학습 생성형 AI 추론 사기 행위 감지 추천 모델
고성능 컴퓨팅(HPC)	복잡한 시뮬레이션 신약 개발, 단백질 접힘, 게놈 분석 위험 분석 및 양적 거래

사용 사례

예시 워크로드