배포를 위한 네트워크 서비스

이 문서에서는 AI 하이퍼컴퓨터 클러스터 및 VM 배포를 위해 구성하는 네트워크 서비스를 설명합니다. AI 하이퍼컴퓨터에 대해 구성하는 특정 네트워크 서비스는 VM 또는 클러스터에 대해 선택하는 배포 옵션에 따라 다릅니다.

이 문서는 AI 하이퍼컴퓨터 배포를 위한 네트워크 서비스를 이해하려는 설계자, 네트워크 엔지니어, 개발자를 대상으로 합니다. 이 문서에서는 클라우드 네트워킹 및 분산 컴퓨팅 개념에 대한 기본적인 지식이 있다고 가정합니다. 배포 옵션에 대한 자세한 내용은 VM 및 클러스터 생성 개요를 참조하세요.

이 문서에서는 다음 배포 옵션에 대해 구성하는 네트워크 서비스를 자세히 설명합니다.

기본 GKE 배포를 위한 네트워킹 구성

기본 설정으로 AI 최적화 GKE 클러스터를 만들 때 Cluster Toolkit 청사진에서 네트워크 설정을 정의합니다. 청사진은 선택한 머신 유형에 따라 변경됩니다. 예를 들어 Cluster Toolkit 청사진은 A4 머신으로 GKE 클러스터를 배포합니다.

청사진은 다음과 같은 방법으로 네트워크를 설정합니다.

  • 기본 VPC 사용: 청사진은 기본 Virtual Private Cloud 네트워크를 기본 GKE 클러스터에 사용합니다.
  • 두 개의 추가 VPC 만들기: 청사진은 두 개의 고유한 Virtual Private Cloud 네트워크를 설정합니다. 하나는 두 번째 호스트 네트워크 인터페이스 카드(NIC)용이고 다른 하나는 GPU 간 원격 직접 메모리 액세스(RDMA) 트래픽용입니다. 이 다중 VPC 설정을 사용하면 네트워크 격리를 개선할 수 있습니다. 자세한 내용은 멀티 VPC 환경을 참조하세요.
  • IP 주소 범위 정의: 청사진은 GKE 노드의 비공개 IP 주소 공간을 설정합니다. 포드 및 서비스의 보조 IP 범위를 구성합니다. GKE는 IP 주소 별칭을 사용하여 IP 주소 충돌을 방지합니다.
  • RDMA 최적화 네트워크 프로필 적용: 청사진은 GPU 트래픽에 사용되는 VPC에 사전 설정된 Google 관리형 네트워크 프로필을 적용합니다. 이 프로필은 RDMA에 필요한 고속 및 저지연 성능을 위해 네트워크를 자동으로 구성합니다. 자세한 내용은 네트워크 프로필을 참조하세요.
  • RDMA의 서브넷 생성 자동화: 최상의 성능을 보장하기 위해 청사진은 RDMA VPC 내에 8개의 전용 서브넷을 자동으로 만듭니다. 가속기 VM에 있는 8개의 RDMA NIC 각각에 대해 하나의 서브넷을 만듭니다.
  • 방화벽 규칙 구성: 청사진은 클러스터 내 노드 간에 모든 전송 제어 프로토콜 (TCP), 사용자 데이터그램 프로토콜 (UDP), 인터넷 제어 메시지 프로토콜 (ICMP) 트래픽을 허용하는 방화벽 규칙을 설정합니다. 이를 통해 노드가 자유롭게 통신할 수 있습니다. 또한 보안상의 이유로 GKE 클러스터의 컨트롤 플레인에 대한 액세스를 제한하도록 승인된 클래스 없는 도메인 간 라우팅 (CIDR) 범위를 구성합니다.

커스텀 구성으로 GKE 배포를 위한 네트워킹

기본 Cluster Toolkit 청사진에서 제공하는 것보다 세분화된 제어가 필요한 경우 AI 최적화 GKE 클러스터의 네트워크 객체를 수동으로 구성합니다. 이 방법을 사용하면 워크로드별 요구사항에 맞게 네트워크 설정을 맞춤설정할 수 있습니다.

사용하는 구성은 분산 AI 워크로드를 실행할 계획인지 여부에 따라 다릅니다.

  • 비분산 워크로드의 경우: GPUDirect RDMA 없이 GKE 클러스터를 만듭니다. 이 메서드는 모든 통신에 단일 VPC 네트워크를 사용합니다.
  • 분산 워크로드의 경우: GPUDirect RDMA가 사용 설정된 GKE 클러스터를 만듭니다. GPUDirect RDMA를 사용 설정하는 것은 대규모로 최적의 성능을 달성하는 데 필수적입니다. 이 구성에는 범용 트래픽을 고대역폭 저지연 GPU 간 통신에서 분리하는 멀티 VPC 환경이 포함됩니다.

두 시나리오에서 커스텀 AI 최적화 GKE 클러스터를 만드는 방법에 관한 단계별 안내는 커스텀 AI 최적화 GKE 클러스터 만들기를 참고하세요.

Slurm 클러스터 배포를 위한 네트워킹

Cluster Toolkit을 사용하여 고도로 맞춤설정 가능하고 확장 가능한 청사진을 통해 고성능 컴퓨팅 (HPC), AI, ML 워크로드를 배포할 수 있습니다. Google Cloud 예를 들어 A4 머신 유형으로 AI 최적화 Slurm 클러스터를 만들 때입니다. 이 섹션에서는 A4 청사진에 구성된 네트워크 서비스를 설명합니다. 이 서비스는 Slurm 클러스터를 만들 때 변경할 수 있는 네트워크 설정을 이해하는 데 도움이 됩니다.

배포 중에 Cluster Toolkit 청사진은 Packer 를 사용하여 커스텀 운영체제 (OS) 이미지를 자동으로 빌드합니다. Packer는 임시 VM을 실행하고 부팅 디스크를 맞춤설정하는 스크립트를 실행하여 이미지를 만듭니다. 시작 스크립트, 셸 스크립트 또는 Ansible 플레이북을 사용하여 이미지를 맞춤설정할 수 있습니다. 그런 다음 청사진은 이 커스텀 이미지를 사용하여 Slurm 노드에서 클러스터 및 워크로드 관리에 필요한 시스템 소프트웨어를 설치합니다.

청사진에서 구성하는 네트워크 구성요소는 다음과 같습니다.

  • 세 개의 고유한 VPC 만들기: 청사진은 Slurm 컨트롤 플레인의 기본 VPC, 일반 호스트 수준 트래픽의 보조 VPC, GPU 간 통신을 위한 전용 고성능 VPC를 만듭니다. 이 분리를 통해 관리 트래픽이 워크로드 데이터 영역을 방해하지 않도록 할 수 있습니다. 자세한 내용은 멀티 VPC 환경을 참조하세요.
  • RDMA 최적화 네트워크 프로필 적용: GPU 데이터 영역의 경우 청사진은 RoCE에 최적화된 사전 구성된 Google 관리형 네트워크 프로필을 적용합니다. 가속기 VM의 각 RDMA NIC에 대해 하나씩 8개의 서브넷을 자동으로 만듭니다. 자세한 내용은 특정 사용 사례를 위한 네트워크 프로필 을 참조하세요.
  • 공유 스토리지의 IP 주소 범위 예약: 청사진은 Filestore 서비스에 필요한 전용 IP 주소 범위를 설정합니다. Filestore는 클러스터의 공유 /home 디렉터리를 제공합니다.
  • 격리된 이미지 빌드 네트워크 제공: 청사진은 클러스터 노드의 커스텀 VM 이미지를 빌드하는 프로세스 중에만 사용되는 임시 VPC를 만듭니다. 이렇게 하면 Packer 작업에 격리된 네트워크 환경이 제공됩니다.

배포 옵션에 대한 자세한 내용은 Cluster Toolkit 문서를 참조하세요.

Compute Engine 인스턴스를 위한 네트워킹

Compute Engine을 사용하면 다양한 가속기 최적화 머신 유형에 대해 독립형 VM, VM 인스턴스를 대량으로, 관리형 인스턴스 그룹 (MIG)을 만들 수 있습니다.

이러한 머신 유형은 다양한 종류의 트래픽을 처리하기 위해 멀티 VPC 네트워크 구성이 필요합니다. 이 구성은 일반 호스트 간 트래픽을 고대역폭 GPU 간 통신에서 분리합니다. 구체적인 네트워크 요구사항은 머신 유형에 따라 다릅니다.

머신 유형의 NIC 및 네트워크 구성에 대한 자세한 내용은 네트워크 대역폭 및 NIC 구성 검토를 참조하세요.

이러한 VPC 네트워크를 만드는 방법에 관한 단계별 안내는 VPC 네트워크 만들기를 참조하세요.

다음 단계