용어

AI Hypercomputer를 사용할 때는 다음 용어가 자주 사용됩니다.

차단
차단되지 않는 패브릭과 상호 연결된 하위 블록 모음으로, 모든 호스트 간에 고대역폭 연결을 제공합니다.

클러스터
고속 네트워크 패브릭으로 상호 연결된 블록 모음입니다. 각 클러스터는 전역적으로 고유합니다. A4X, A4, A3 Ultra, A3 Mega, A3 High (8 GPU) 머신의 경우 클러스터는 가속기 용량 블록에 공통의 비차단 네트워크 패브릭을 제공합니다. 클러스터 내에서 동서 네트워킹은 전체 블록 모음에 대해 차단되지 않습니다.

밀집 배포
네트워크 홉을 최소화하고 최소 지연 시간에 맞게 최적화하기 위해 액셀러레이터 리소스를 물리적으로 서로 가까운 위치에 할당하는 리소스 요청입니다.

네트워크 패브릭
네트워크 패브릭은 클러스터의 모든 블록과 Google Cloud 서비스에 걸쳐 지연 시간이 짧은 고대역폭 연결을 제공합니다. Jupiter는 소프트웨어 정의 네트워킹과 광 회로 스위치를 사용하여 네트워크를 발전시키고 성능을 최적화하는 Google의 데이터 센터 네트워크 아키텍처입니다.

노드 또는 호스트
데이터 센터의 단일 실제 서버 머신입니다. 각 호스트에는 가속기와 같은 연결된 컴퓨팅 리소스가 있습니다. 이러한 컴퓨팅 리소스의 수와 구성은 머신 계열에 따라 다릅니다. Compute Engine 인스턴스는 실제 호스트 위에 프로비저닝됩니다.

NVLink 도메인(하위 블록이라고도 함)은 A4X Max 및 A4X 머신의 핵심 용량 단위입니다. NVLink 도메인은 다중 노드 NVLink 시스템으로 연결된 18개의 A4X Max 또는 A4X 인스턴스 (72개의 GPU)로 구성됩니다.

하위 블록
단일 물리적 랙에 있는 호스트 그룹 및 연결 하드웨어입니다. A4X Max 및 A4X 머신과 관련하여 하위 블록을 NVLink 도메인이라고도 합니다.

추가 정보

다음 문서에서는 해당 주제와 관련된 용어에 대해 자세히 설명합니다.