Mulai menggunakan cluster pelatihan

Jika Anda tertarik dengan cluster pelatihan Vertex AI, hubungi perwakilan penjualan Anda untuk mendapatkan akses.

Sebelum dapat men-deploy cluster pertama di cluster pelatihan Vertex AI, Anda harus mengonfigurasi Google Cloud project dan lingkungan. Panduan ini mencakup semua prasyarat yang diperlukan, yang terbagi dalam tiga kategori utama:

  • Akses Project: Mendapatkan akses ke layanan, yang hanya tersedia berdasarkan undangan.

  • Konfigurasi Resource: Mengaktifkan API dan menyiapkan layanan jaringan dan penyimpanan VPC yang diperlukan.

  • Izin Pengguna: Memberikan peran IAM yang diperlukan untuk pengelolaan cluster dan akses resource.

Dengan menyelesaikan langkah-langkah ini, proyek Anda akan siap untuk penerapan yang berhasil.

Prasyarat

Untuk menggunakan cluster pelatihan, Anda harus:

  1. Masukkan project Anda ke daftar yang diberi akses dengan menghubungi Sales Rep Anda untuk mendapatkan akses.
  2. Dapatkan kapasitas untuk cluster GPU di region yang didukung.
  3. Aktifkan API yang diperlukan, termasuk Compute Engine, Filestore, Cloud Storage, Managed Lustre (opsional), Hypercomputer Configuration Service, dan Vertex AI API.
  4. Konfigurasi jaringan dengan memastikan jaringan yang ada memenuhi kondisi tertentu (misalnya, Akses Pribadi Google, aturan firewall) atau dengan membuat jaringan dan sub-jaringan VPC baru.
  5. Konfigurasi penyimpanan dengan membuat instance Filestore zonal atau regional untuk berfungsi sebagai direktori /home dan secara opsional mengonfigurasi Google Cloud instance Lustre terkelola.
  6. Beri izin IAM kepada pengguna untuk pengelolaan cluster, akses penyimpanan, dan akses SSH ke node cluster, seperti yang dijelaskan di bagian Izin IAM.

Region yang didukung

  • us-central1
  • us-east1
  • us-east4
  • us-east5
  • us-south1
  • us-west1
  • us-west4
  • asia-southeast1
  • europe-west1
  • europe-west4
  • europe-north1

Izin IAM

  1. Berikan peran roles/aiplatform.admin kepada pengguna yang akan mengelola cluster pelatihan Anda.
  2. Berikan peran roles/aiplatform.viewer kepada pengguna yang hanya perlu melihat cluster dan konfigurasinya.
  3. Berikan peran IAM berikut kepada pengguna atau akun layanan yang akan mengelola (membuat, menghapus, dan memperbarui) cluster Managed Training:

    Nama Peran ID Peran
    Compute Instance Admin (v1) roles/compute.instanceAdmin.v1
    Penulis Log roles/logging.logWriter
    Penulis Metrik Pemantauan roles/monitoring.metricWriter
    Service Account User roles/iam.serviceAccountUser
    Service Networking Admin roles/servicenetworking.networksAdmin
  4. Untuk mengizinkan node cluster membaca dari dan menulis ke bucket Cloud Storage menggunakan Google Cloud Storage FUSE, berikan peran Storage Object User (roles/storage.objectUser) ke akun layanan yang digunakan oleh VM.

  5. Untuk akses SSH ke node login Slurm, berikan izin berikut:

    Izin Deskripsi Tujuan
    Compute OS Login Login ke VM sebagai pengguna standar (non-administrator). Jika sudo diperlukan, gunakan Login Admin OS Compute sebagai gantinya. SSH ke node login yang di-deploy
    IAP-secured Tunnel User Akses ke resource Tunnel yang menggunakan Identity-Aware Proxy. SSH ke node login yang di-deploy

Mengaktifkan API

  1. Aktifkan Google Compute Engine API:

       gcloud services enable compute.googleapis.com
    
    
  2. Aktifkan jaringan layanan karena Filestore harus di-deploy sebelum membuat cluster.

       gcloud services enable servicenetworking.googleapis.com
    
  3. Aktifkan Cloud Storage API:

        gcloud services enable storage.googleapis.com
    
  4. Aktifkan Lustre API (jika menggunakan Lustre):

    gcloud services enable lustre.googleapis.com
    
    
  5. Aktifkan HCS API:

    gcloud services enable hypercomputecluster.googleapis.com
    
    
  6. Aktifkan Vertex AI API:

    gcloud services enable aiplatform.googleapis.com
    
    
  7. Aktifkan Cloud Resource Manager API:

    gcloud services enable cloudresourcemanager.googleapis.com
    
    

Langkah berikutnya

Untuk panduan mendetail tentang cara membuat cluster pelatihan dan menjalankan beban kerja AI/ML, hubungi Sales Rep Anda.