학습 클러스터 시작하기

Vertex AI Training 클러스터에 관심이 있으면 영업 담당자에게 문의하여 액세스 권한을 받으세요.

Vertex AI Training 클러스터에 첫 번째 클러스터를 배포하려면 먼저Google Cloud 프로젝트 및 환경을 구성해야 합니다. 이 가이드에서는 다음 세 가지 주요 카테고리에 속하는 모든 필수 기본 요건을 다룹니다.

  • 프로젝트 액세스: 초대를 통해서만 액세스할 수 있는 서비스에 액세스합니다.

  • 리소스 구성: API를 사용 설정하고 필수 VPC 네트워크 및 스토리지 서비스를 설정합니다.

  • 사용자 권한: 클러스터 관리 및 리소스 액세스에 필요한 IAM 역할을 부여합니다.

이 단계를 완료하면 프로젝트를 성공적으로 배포할 수 있습니다.

기본 요건

학습 클러스터를 사용하려면 다음을 충족해야 합니다.

  1. 액세스 권한을 얻으려면 영업 담당자에게 문의하여 프로젝트를 허용 목록에 추가합니다.
  2. 지원되는 리전에서 GPU 클러스터용량을 확보합니다.
  3. Compute Engine, Filestore, Cloud Storage, Managed Lustre(선택사항), Hypercomputer 구성 서비스, Vertex AI API를 비롯한 필수 API를 사용 설정합니다.
  4. 기존 네트워크가 특정 조건(예: Google 비공개 액세스, 방화벽 규칙)을 충족하는지 확인하거나 새 VPC 네트워크 및 서브넷을 만들어 네트워킹을 구성합니다.
  5. /home 디렉터리 역할을 하는 영역별 또는 리전별 Filestore 인스턴스를 만들고 필요에 따라 Google Cloud 관리형 Lustre 인스턴스를 구성하여 스토리지를 구성합니다.
  6. IAM 권한 섹션에 설명된 대로 클러스터 관리, 스토리지 액세스, 클러스터 노드에 대한 SSH 액세스를 위해 사용자에게 IAM 권한을 부여합니다.

지원되는 리전

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

IAM 권한

  1. 학습 클러스터를 관리할 사용자에게 roles/aiplatform.admin 역할을 부여합니다.
  2. 클러스터와 구성을 보기만 하면 되는 사용자에게 roles/aiplatform.viewer 역할을 부여합니다.
  3. 관리형 학습 클러스터를 관리(생성, 삭제, 업데이트)할 사용자 또는 서비스 계정에 다음 IAM 역할을 부여합니다.

    역할 이름 역할 ID
    Compute 인스턴스 관리자(v1) roles/compute.instanceAdmin.v1
    로그 작성자 roles/logging.logWriter
    모니터링 측정항목 작성자 roles/monitoring.metricWriter
    서비스 계정 사용자 roles/iam.serviceAccountUser
    서비스 네트워킹 관리자 roles/servicenetworking.networksAdmin
  4. 클러스터의 노드가 Google Cloud Storage FUSE를 사용하여 Cloud Storage 버킷에서 읽고 쓸 수 있도록 VM에서 사용하는 서비스 계정에 스토리지 객체 사용자 역할(roles/storage.objectUser)을 부여합니다.

  5. Slurm 로그인 노드에 대한 SSH 액세스의 경우 다음 권한을 부여합니다.

    권한 설명 목적
    Compute OS 로그인 VM에 관리자가 아닌 표준 사용자로 로그인합니다. sudo가 필요한 경우 Compute OS 관리자 로그인을 대신 사용하세요. 배포된 로그인 노드에 SSH 연결
    IAP 보안 터널 사용자 IAP(Identity-Aware Proxy)를 사용하는 터널 리소스에 대한 액세스 권한입니다. 배포된 로그인 노드에 SSH 연결

API 사용 설정

  1. Google Compute Engine API 사용 설정

       gcloud services enable compute.googleapis.com
    
    
  2. 클러스터를 만들기 전에 Filestore를 배포해야 하므로 서비스 네트워킹을 사용 설정합니다.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Cloud Storage API를 사용 설정합니다.

        gcloud services enable storage.googleapis.com
    
  4. Lustre를 사용하는 경우 Lustre API를 사용 설정합니다.

    gcloud services enable lustre.googleapis.com
    
    
  5. HCS API를 사용 설정합니다.

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Vertex AI API를 사용 설정합니다.

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Cloud Resource Manager API를 사용 설정합니다.

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

다음 단계

학습 클러스터를 만들고 AI/ML 워크로드를 실행하는 방법에 관한 자세한 가이드는 영업 담당자에게 문의하세요.