네트워킹 권장사항

이 문서에서는 AI Hypercomputer 워크로드를 위한 안전하고 복원력이 우수한 네트워킹 환경을 만들기 위한 권장사항을 설명합니다. 이러한 권장사항은 AI 하이퍼컴퓨터에서 인공지능 (AI) 및 머신러닝 (ML) 워크로드를 구성하고 배포하려는 네트워크 설계자, 네트워크 엔지니어, 개발자를 대상으로 합니다.

명확하고 제한된 IAM 역할 설정

IAM을 올바르게 구성하면 AI 하이퍼컴퓨터 배포의 보안과 성공률을 개선하는 데 도움이 됩니다. 프로덕션 환경에서 권한이 부적절하거나 잘못 구성되면 배포가 실패할 수 있습니다. 특히 클러스터 툴킷을 사용하는 AI Hypercomputer 배포는 기본 Compute Engine 서비스 계정에 광범위한 Editor 역할이 없는 보안 강화 환경에서 실패하는 경우가 많습니다.

권한 문제로 인해 발생할 수 있는 배포 문제를 완화하려면 이 섹션에 나열된 권장사항을 따르세요.

전용 서비스 계정 사용

보안 및 제어 기능을 강화하려면 기본 Compute Engine 서비스 계정을 사용하지 마세요. 대신 AI Hypercomputer 배포를 위한 전용 서비스 계정을 만드세요.

필요한 IAM 역할 부여

생성한 전용 서비스 계정에 다음 IAM 역할을 부여합니다.

  • Compute 관리자 (roles/compute.admin): Compute Engine 리소스를 완전히 제어할 수 있습니다.
  • 서비스 계정 사용자 (roles/iam.serviceAccountUser): 서비스 계정을 다른 리소스에 연결할 수 있도록 허용합니다. 이는 맞춤 이미지를 빌드할 때 Packer와 같은 도구에 중요합니다.
  • 스토리지 관리자 (roles/storage.admin): Packer 이미지 또는 기타 아티팩트를 저장하는 등 Cloud Storage 버킷에 액세스하고 관리해야 합니다.
  • Logging 관리자 (roles/logging.admin): 서비스 계정이 로깅을 구성하고 로그를 볼 수 있도록 허용합니다. 이는 디버깅에 필수적입니다.

배포 전에 권한 확인

배포를 시작하기 전에 서비스 계정에 필요한 권한이 있는지 확인하세요. gcloud projects get-iam-policy 명령어를 실행합니다.

gcloud projects get-iam-policy PROJECT_ID \
    --flatten="bindings[].members" \ format='table(bindings.role)' \
    --filter="bindings.members:serviceAccount:SERVICE_ACCOUNT_EMAIL"

다음을 바꿉니다.

  • PROJECT_ID: Google Cloud 프로젝트의 ID입니다.
  • SERVICE_ACCOUNT_EMAIL: 인증하려는 서비스 계정의 이메일 주소입니다.

이 명령어는 지정된 프로젝트에서 서비스 계정에 부여된 모든 역할을 나열합니다. 필요한 IAM 역할 부여에 나열된 역할이 출력에 표시되는지 확인합니다.

공개 네트워크 액세스 제한 및 방화벽 구성 강화

공개 네트워크 액세스를 제한하고 방화벽 구성을 강화하여 보안을 개선합니다. 이 기본 보안 관행은 권한이 과도하게 부여된 기본 방화벽 규칙의 위험을 완화합니다.

내부 테스트에는 없지만 제한적인 방화벽 구성으로 인해 프로덕션 환경에서 가상 머신 (VM) 설정 실패가 발생할 수 있습니다. 엔지니어는 특정 방화벽 규칙에 대한 지식이 없으면 이러한 장애를 진단하기 어려울 수 있습니다.

인터넷에 직접 노출되는 것을 최소화하도록 방화벽 규칙을 검토하고 업데이트합니다. VPC 방화벽 규칙에 대한 자세한 내용은 VPC 방화벽 규칙을 참고하세요.

내부 네트워킹 기본값 표준화

위험과 구성 문제를 줄이기 위해 내부 네트워킹 기본값을 표준화합니다. 기본 네트워킹 동작은 복잡하거나 보안이 강화된 환경에서 위험이나 구성 문제를 일으킬 수 있습니다. Google에서는 다음 구성을 권장합니다.

  • 영역 DNS 사용: 새 프로젝트의 경우 내부 도메인 이름 시스템(DNS)을 영역 DNS 전용으로 설정합니다. 이 접근 방식은 잠재적인 전 세계 DNS 중단의 영향을 줄이는 데 도움이 됩니다. 영역 DNS 사용에 대한 자세한 내용은 영역 DNS 사용 개요를 참고하세요.
  • 외부 IP 주소 사용 중지: 가능한 경우 외부 IP 주소를 사용 중지합니다. IP 주소를 사용 중지하기 전에 스테이징 환경에서 신중하게 계획하고 테스트해야 합니다. 관리형 인스턴스 그룹(MIG) 또는 공개 노드가 있는 GKE 클러스터와 같은 일부 서비스는 IP 주소를 사용하기 때문입니다. 공개 IP 주소 제한에 대한 자세한 내용은 Google Cloud에서 공개 IP 주소 제한을 참고하세요.

권장사항 요약

다음 표에서는 이 문서에 설명된 권장사항을 요약해서 보여줍니다.

주제 작업
IAM 명확하고 제한된 IAM 역할 설정
방화벽 공개 네트워크 액세스 제한 및 방화벽 구성 강화
네트워크 기본값 내부 네트워킹 기본값 표준화

다음 단계