이 문서에서는 AI 하이퍼컴퓨터 클러스터 및 VM 배포를 위해 구성하는 네트워크 서비스를 설명합니다. AI 하이퍼컴퓨터에 구성하는 특정 네트워크 서비스는 VM 또는 클러스터에 선택한 배포 옵션에 따라 다릅니다.
이 문서는 AI Hypercomputer 배포의 네트워크 서비스를 이해하려는 설계자, 네트워크 엔지니어, 개발자를 대상으로 합니다. 이 문서에서는 사용자가 클라우드 네트워킹 및 분산 컴퓨팅 개념에 대해 기본적인 지식을 갖추고 있다고 가정합니다. 배포 옵션에 대한 자세한 내용은 VM 및 클러스터 생성 개요를 참고하세요.
이 문서에서는 다음 배포 옵션에 대해 구성하는 네트워크 서비스를 자세히 설명합니다.
기본 GKE 배포의 네트워킹 구성
기본 설정으로 AI에 최적화된 GKE 클러스터를 만들 때 클러스터 툴킷 청사진에서 네트워크 설정을 정의합니다. 블루프린트는 선택한 머신 유형에 따라 변경됩니다. 예를 들어 Cluster Toolkit 청사진은 A4 머신을 사용하여 GKE 클러스터를 배포합니다.
청사진은 다음과 같은 방식으로 네트워크를 설정합니다.
- 기본 VPC 사용: 블루프린트는 기본 가상 프라이빗 클라우드 네트워크를 기본 GKE 클러스터에 사용합니다.
- 두 개의 추가 VPC 생성: 블루프린트는 두 개의 개별 가상 프라이빗 클라우드 네트워크를 설정합니다. 하나는 두 번째 호스트 네트워크 인터페이스 카드(NIC)용이고 다른 하나는 GPU 간 원격 직접 메모리 액세스(RDMA) 트래픽용입니다. 이 다중 VPC 설정을 사용하면 네트워크 격리를 개선할 수 있습니다. 자세한 내용은 다중 VPC 환경을 참고하세요.
- IP 주소 범위 정의: 청사진은 GKE 노드의 비공개 IP 주소 공간을 설정합니다. 포드 및 서비스의 보조 IP 범위를 구성합니다. GKE는 IP 주소 충돌을 방지하기 위해 IP 주소 별칭을 사용합니다.
- RDMA 최적화 네트워크 프로필 적용: 블루프린트는 GPU 트래픽에 사용되는 VPC에 사전 설정된 Google 관리 네트워크 프로필을 적용합니다. 이 프로필은 RDMA에 필요한 고속 및 짧은 지연 시간 성능을 위해 네트워크를 자동으로 구성합니다. 자세한 내용은 특정 사용 사례를 위한 네트워크 프로필을 참고하세요.
- RDMA용 서브넷 생성 자동화: 최상의 성능을 보장하기 위해 블루프린트는 RDMA VPC 내에 전용 서브넷 8개를 자동으로 생성합니다. 액셀러레이터 VM의 8개 RDMA NIC 각각에 대해 하나의 서브넷을 만듭니다.
- 방화벽 규칙 구성: 블루프린트는 클러스터 내 노드 간의 모든 전송 제어 프로토콜 (TCP), 사용자 데이터그램 프로토콜 (UDP), 인터넷 제어 메시지 프로토콜 (ICMP) 트래픽을 허용하는 방화벽 규칙을 설정합니다. 이를 통해 노드가 자유롭게 통신할 수 있습니다. 또한 보안상의 이유로 GKE 클러스터의 컨트롤 플레인에 대한 액세스를 제한하도록 승인된 클래스 없는 도메인 간 라우팅 (CIDR) 범위를 구성합니다.
맞춤 구성이 적용된 GKE 배포를 위한 네트워킹
기본 Cluster Toolkit 청사진에서 제공하는 것보다 세부적인 제어가 필요한 경우 AI에 최적화된 GKE 클러스터의 네트워크 객체를 수동으로 구성합니다. 이 방법을 사용하면 워크로드별 요구사항에 맞게 네트워크 설정을 맞춤설정할 수 있습니다.
사용하는 구성은 분산 AI 워크로드를 실행할 계획인지에 따라 달라집니다.
- 분산되지 않은 워크로드의 경우: GPUDirect RDMA 없이 GKE 클러스터를 만듭니다. 이 방법은 모든 통신에 단일 VPC 네트워크를 사용합니다.
- 분산 워크로드의 경우: GPUDirect RDMA가 사용 설정된 GKE 클러스터를 만듭니다. 대규모로 최적의 성능을 달성하려면 GPUDirect RDMA를 사용 설정해야 합니다. 이 구성에는 범용 트래픽과 대역폭이 높고 지연 시간이 짧은 GPU 간 통신을 분리하는 다중 VPC 환경이 포함됩니다.
두 시나리오 모두에 맞게 맞춤 AI 최적화 GKE 클러스터를 만드는 방법에 관한 자세한 단계별 안내는 맞춤 AI 최적화 GKE 클러스터 만들기를 참고하세요.
Slurm 클러스터 배포를 위한 네트워킹
클러스터 툴킷을 사용하여 맞춤설정 가능하고 확장 가능한 청사진을 통해 Google Cloud 에 고성능 컴퓨팅 (HPC), AI, ML 워크로드를 배포할 수 있습니다. 예를 들어 A4 머신 유형으로 AI에 최적화된 Slurm 클러스터를 만드는 경우입니다. 이 섹션에서는 A4 청사진에 구성된 네트워크 서비스를 설명합니다. 이를 통해 Slurm 클러스터를 만들 때 변경할 수 있는 네트워크 설정을 파악할 수 있습니다.
배포 중에 클러스터 툴킷 청사진은 Packer를 사용하여 맞춤 운영체제 (OS) 이미지를 자동으로 빌드합니다. Packer는 임시 VM을 실행하고 스크립트를 실행하여 부팅 디스크를 맞춤설정하여 이미지를 만듭니다. 시작 스크립트, 셸 스크립트 또는 Ansible 플레이북을 사용하여 이미지를 맞춤설정할 수 있습니다. 그런 다음 블루프린트는 이 맞춤 이미지를 사용하여 Slurm 노드에 클러스터 및 워크로드 관리에 필요한 시스템 소프트웨어를 설치합니다.
청사진에서 구성하는 네트워크 구성요소는 다음과 같습니다.
- 세 개의 개별 VPC 생성: 청사진은 Slurm 제어 영역의 기본 VPC, 일반 호스트 수준 트래픽의 보조 VPC, GPU 간 통신을 위한 전용 고성능 VPC를 생성합니다. 이렇게 분리하면 관리 트래픽이 워크로드 데이터 영역을 방해하지 않습니다. 자세한 내용은 다중 VPC 환경을 참고하세요.
- RDMA 최적화 네트워크 프로필 적용: GPU 데이터 영역의 경우 블루프린트는 RoCE에 최적화된 사전 구성된 Google 관리 네트워크 프로필을 적용합니다. 액셀러레이터 VM의 각 RDMA NIC에 대해 서브넷 하나씩 총 8개의 서브넷이 자동으로 생성됩니다. 자세한 내용은 특정 사용 사례를 위한 네트워크 프로필을 참고하세요.
- 공유 스토리지를 위한 IP 주소 범위 예약: 청사진은 Filestore 서비스에 필요한 전용 IP 주소 범위를 설정합니다.
Filestore는 클러스터의 공유
/home디렉터리를 제공합니다. - 격리된 이미지 빌드 네트워크 제공: 블루프린트는 클러스터 노드의 맞춤 VM 이미지를 빌드하는 프로세스 중에만 사용되는 임시 VPC를 만듭니다. 이렇게 하면 Packer 작업에 격리된 네트워크 환경이 제공됩니다.
추가 배포 옵션은 클러스터 툴킷 문서를 참고하세요.
Compute Engine 인스턴스용 네트워킹
Compute Engine을 사용하면 다양한 액셀러레이터 최적화 머신 유형에 대해 독립형 VM, VM 인스턴스 대량, 관리형 인스턴스 그룹 (MIG)을 만들 수 있습니다.
이러한 머신 유형은 다양한 종류의 트래픽을 처리하기 위해 다중 VPC 네트워크 구성이 필요합니다. 이 구성은 일반 호스트 간 트래픽을 고대역폭 GPU 간 통신과 분리합니다. 구체적인 네트워크 요구사항은 머신 유형에 따라 다릅니다.
머신 유형의 NIC 및 네트워크 구성에 대한 자세한 내용은 네트워크 대역폭 및 NIC 구성 검토를 참고하세요.
이러한 VPC 네트워크를 만드는 단계별 안내는 VPC 네트워크 만들기를 참고하세요.
다음 단계
- 워크로드에 가장 적합한 배포를 확인하려면 권장 구성을 참고하세요.
- 각 배포 옵션의 사용 사례를 이해하려면 VM 및 클러스터 생성 개요를 참고하세요.
- 기본 구성으로 AI에 최적화된 GKE 클러스터를 만들려면 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기를 참고하세요.
- AI에 최적화된 커스텀 GKE 클러스터를 만들려면 AI에 최적화된 커스텀 GKE 클러스터 만들기를 참고하세요.
- A4 머신 유형으로 AI에 최적화된 Slurm 클러스터를 만들려면 A4 머신 유형으로 AI에 최적화된 Slurm 클러스터 만들기를 참고하세요.
- A4 또는 A3 Ultra로 AI 최적화 인스턴스를 만들려면 A4 또는 A3 Ultra로 AI 최적화 인스턴스 만들기를 참고하세요.
- A3 Mega 또는 A3 High로 AI 최적화 인스턴스를 만들려면 A3 Mega 또는 A3 High로 AI 최적화 인스턴스 만들기를 참고하세요.