Vertex AI 학습 클러스터는 고객 VPC 내부에서 Compute Engine 인스턴스로 프로비저닝되는 관리형 Google Cloud서비스입니다. 이러한 배포 모델을 통해, 서비스는 고객 VPC 내의 다른 워크로드, Google이 관리하는 서비스, 멀티 클라우드 네트워크에 안전하게 연결될 수 있습니다.
네트워크 MTU 요구사항
학습 인프라의 최적 네트워크 성능을 달성하려면 VPC 네트워크의 최대 전송 단위(MTU)를 구성해야 합니다.
MTU 권장 설정
권장되는 MTU 값은 클러스터에서 사용하는 GPU 머신 유형에 따라 달라집니다.
- A3 Ultra 및 A4 노드: MTU를 8896으로 설정합니다.
- A3 Mega 노드: MTU를 8244로 설정합니다.
새로운 VPC를 만들거나 기존 VPC를 사용할 수 있습니다.
새 VPC에서 학습 클러스터 배포(권장)
권장되는 방법은 사전 구성한 새로운 VPC 네트워크에 학습 클러스터를 배포하는 것입니다. 이렇게 하면 올바른 MTU 설정이 자동으로 적용되고 기존 워크로드에 영향을 주지 않게 됩니다.
새 VPC에 학습 클러스터를 배포하는 주요 단계는 다음과 같습니다.
VPC 네트워크 만들기: 새 VPC 네트워크를 만듭니다. 점보 프레임을 사용 설정하기 위해 MTU를 8896으로 설정합니다.
클러스터 배포: 새로 구성한 네트워크에 학습 클러스터를 배포합니다.
이 순서를 따를 경우, 클러스터의 VM 인스턴스는 첫 부팅 시 올바른 MTU 설정을 자동으로 상속받습니다.
새 VPC 만들기 및 설정
- VPC 네트워크를 만듭니다. 점보 프레임을 사용 설정하려면 NETWORK_MTU를 8896으로 설정합니다.
# create VPC network gcloud compute networks create NETWORK \ --project=PROJECT_ID \ --subnet-mode=custom \ --mtu=NETWORK_MTU - 학습 클러스터를 배포하는 데 사용할 서브넷을 만들고 환경 요구사항에 따라 범위를 업데이트합니다. 이 예시에서는 192.168.0.0/19 서브넷이 학습 클러스터 배포에 사용됩니다.
# create VPC subnet gcloud compute networks subnets create SUBNETWORK \ --project=PROJECT_ID \ --network=NETWORK \ --region=REGION \ --enable-private-ip-google-access \ --range=192.168.0.0/19
- 학습 클러스터에 대한 SSH 연결을 허용하는 IAP 방화벽 규칙을 만듭니다.
gcloud compute firewall-rules create allow-ssh-ingress-from-iap \ --direction=INGRESS --action=allow --rules=tcp:22 \ --source-ranges=35.235.240.0/20 --network NETWORK - 학습 클러스터 서브넷에 대해 모든 포트와 프로토콜을 허용하는 인그레스 방화벽 규칙을 만듭니다.
gcloud compute --project=PROJECT_ID firewall-rules create allow-internal \ --direction=INGRESS --priority=1000 --network=NETWORK \ --action=ALLOW --rules=tcp:1-65535,udp:1-65535,icmp \ --source-ranges=192.168.0.0/19 --enable-logging
기존 VPC에 학습 클러스터 배포
Cloud Storage 인스턴스가 있는 기존 네트워크에 학습 클러스터를 배포하는 경우 최적의 성능을 위해서는 점보 프레임(MTU 8896)을 사용하는 것이 좋습니다. 시작하기 전에 기존 VM의 운영체제와 애플리케이션이 이러한 변경사항을 지원할 수 있는지 확인하세요.
점보 프레임을 구현하려면 VPC의 MTU를 업데이트해야 하며, 네트워크 불안정을 방지하기 위해 반드시 계획된 유지보수 기간 중에 업데이트해야 합니다.
유일하게 안전한 절차는 해당 네트워크에서 실행 중인 모든 VM 인스턴스를 먼저 중지하는 것입니다. VM이 활성 상태에서 MTU를 변경하면 설정 불일치로 인해 연결이 불안정해집니다.
모든 VM을 중지한 후에는 다음 단계를 진행할 수 있습니다.
- 네트워크의 MTU를 선택한 설정(예: 8896)으로 변경합니다.
- 네트워크 업데이트가 완료되면 모든 VM을 다시 시작합니다.
- 비Linux VM을 수동 업데이트가 필요합니다. 모든 운영체제에서 재시작만으로 충분하지 않다는 점을 유의하세요. 공개 Linux 이미지 기반 VM은 새 MTU를 자동으로 적용하지만, Windows VM과 DHCP로 MTU를 구성하지 않는 커스텀 이미지 VM은 OS 내부에서 MTU 설정을 수동으로 업데이트해야 합니다.
추가 요구사항:
- 클러스터를 배포하는 서브넷에서 비공개 Google 액세스를 사용 설정합니다.
- 클러스터에 대한 IAP 액세스 권한을 부여하는 인그레스 방화벽 규칙을 만듭니다.
- 클러스터로 향하는 모든 트래픽을 허용하는 인그레스 방화벽 규칙을 만듭니다.