Mulai menggunakan cluster pelatihan

Jika Anda tertarik dengan cluster pelatihan Colab Enterprise, hubungi perwakilan penjualan Anda untuk mendapatkan akses.

Sebelum dapat men-deploy cluster pertama di cluster pelatihan Colab Enterprise, Anda harus mengonfigurasi Google Cloud project dan lingkungan. Panduan ini mencakup semua prasyarat yang diperlukan, yang termasuk dalam tiga kategori utama:

  • Akses Project: Mendapatkan akses ke layanan, yang hanya dapat dilakukan melalui undangan.

  • Konfigurasi Resource: Mengaktifkan API dan menyiapkan layanan penyimpanan dan jaringan VPC yang diperlukan.

  • Izin Pengguna: Memberikan peran IAM yang diperlukan untuk pengelolaan cluster dan akses resource.

Menyelesaikan langkah-langkah ini akan menyiapkan project Anda untuk deployment yang berhasil.

Prasyarat

Untuk menggunakan cluster pelatihan, Anda harus:

  1. Memasukkan project Anda ke daftar yang diizinkan dengan menghubungi perwakilan penjualan Anda untuk mendapatkan akses.
  2. Mendapatkan kapasitas untuk cluster GPU di region yang didukung.
  3. Mengaktifkan API yang diperlukan, termasuk Compute Engine, Filestore, Cloud Storage, Managed Lustre (opsional), Hypercomputer Configuration Service, dan Agent Platform API.
  4. Mengonfigurasi jaringan dengan memastikan jaringan yang ada memenuhi kondisi tertentu (misalnya, Akses Pribadi Google, aturan firewall) atau dengan membuat jaringan dan subnetwork VPC baru.
  5. Mengonfigurasi penyimpanan dengan membuat instance Filestore zonal atau regional untuk berfungsi sebagai direktori /home dan secara opsional mengonfigurasi Google Cloud instance Lustre terkelola.
  6. Memberikan izin IAM kepada pengguna untuk pengelolaan cluster, akses penyimpanan, dan akses SSH ke node cluster, seperti yang dijelaskan di bagian izin IAM.

Region yang didukung

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Izin IAM

  1. Berikan peran roles/aiplatform.admin kepada pengguna yang akan mengelola cluster pelatihan Anda.
  2. Berikan peran roles/aiplatform.viewer kepada pengguna yang hanya perlu melihat cluster dan konfigurasinya.
  3. Berikan peran IAM berikut kepada pengguna atau akun layanan yang akan mengelola (membuat, menghapus, dan memperbarui) cluster Pelatihan Terkelola:

    Nama Peran ID Peran
    Compute Instance Admin (v1) roles/compute.instanceAdmin.v1
    Penulis Log roles/logging.logWriter
    Penulis Metrik Pemantauan roles/monitoring.metricWriter
    Service Account User roles/iam.serviceAccountUser
    Service Networking Admin roles/servicenetworking.networksAdmin
  4. Untuk mengizinkan node cluster membaca dari dan menulis ke bucket Cloud Storage menggunakan Google Cloud Storage FUSE, berikan peran Pengguna Objek Penyimpanan (roles/storage.objectUser) ke akun layanan yang digunakan oleh VM.

  5. Untuk akses SSH ke node login Slurm, berikan izin berikut:

    Izin Deskripsi Tujuan
    Login OS Compute Login ke VM sebagai pengguna standar (non-administrator). Jika sudo diperlukan, gunakan Login Admin OS Compute. SSH ke node login yang di-deploy
    IAP-secured Tunnel User Mengakses resource Tunnel yang menggunakan Identity-Aware Proxy. SSH ke node login yang di-deploy

Mengaktifkan API

  1. Aktifkan Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. Aktifkan jaringan layanan karena Filestore harus di-deploy sebelum membuat cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Aktifkan Cloud Storage API:

        gcloud services enable storage.googleapis.com
    
  4. Aktifkan Lustre API (jika menggunakan Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Aktifkan HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Aktifkan Gemini Enterprise API:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Aktifkan Cloud Resource Manager API:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Langkah berikutnya

Untuk panduan mendetail tentang cara membuat cluster pelatihan dan menjalankan beban kerja AI/ML, hubungi perwakilan penjualan Anda.