Sebelum dapat men-deploy cluster pertama di cluster pelatihan Vertex AI, Anda harus mengonfigurasi Google Cloud project dan lingkungan. Panduan ini mencakup semua prasyarat yang diperlukan, yang terbagi dalam tiga kategori utama:
Akses Project: Mendapatkan akses ke layanan, yang hanya tersedia berdasarkan undangan.
Konfigurasi Resource: Mengaktifkan API dan menyiapkan layanan jaringan dan penyimpanan VPC yang diperlukan.
Izin Pengguna: Memberikan peran IAM yang diperlukan untuk pengelolaan cluster dan akses resource.
Dengan menyelesaikan langkah-langkah ini, proyek Anda akan siap untuk penerapan yang berhasil.
Prasyarat
Untuk menggunakan cluster pelatihan, Anda harus:
- Masukkan project Anda ke daftar yang diberi akses dengan menghubungi Sales Rep Anda untuk mendapatkan akses.
- Dapatkan kapasitas untuk cluster GPU di region yang didukung.
- Aktifkan API yang diperlukan, termasuk Compute Engine, Filestore, Cloud Storage, Managed Lustre (opsional), Hypercomputer Configuration Service, dan Vertex AI API.
- Konfigurasi jaringan dengan memastikan jaringan yang ada memenuhi kondisi tertentu (misalnya, Akses Pribadi Google, aturan firewall) atau dengan membuat jaringan dan sub-jaringan VPC baru.
- Konfigurasi penyimpanan dengan membuat instance Filestore zonal atau regional untuk berfungsi sebagai direktori
/homedan secara opsional mengonfigurasi Google Cloud instance Lustre terkelola. - Beri izin IAM kepada pengguna untuk pengelolaan cluster, akses penyimpanan, dan akses SSH ke node cluster, seperti yang dijelaskan di bagian Izin IAM.
Region yang didukung
us-central1us-east1us-east4us-east5us-south1us-west1us-west4asia-southeast1europe-west1europe-west4europe-north1
Izin IAM
- Berikan peran
roles/aiplatform.adminkepada pengguna yang akan mengelola cluster pelatihan Anda. - Berikan peran
roles/aiplatform.viewerkepada pengguna yang hanya perlu melihat cluster dan konfigurasinya. Berikan peran IAM berikut kepada pengguna atau akun layanan yang akan mengelola (membuat, menghapus, dan memperbarui) cluster Managed Training:
Nama Peran ID Peran Compute Instance Admin (v1) roles/compute.instanceAdmin.v1Penulis Log roles/logging.logWriterPenulis Metrik Pemantauan roles/monitoring.metricWriterService Account User roles/iam.serviceAccountUserService Networking Admin roles/servicenetworking.networksAdminUntuk mengizinkan node cluster membaca dari dan menulis ke bucket Cloud Storage menggunakan Google Cloud Storage FUSE, berikan peran Storage Object User (
roles/storage.objectUser) ke akun layanan yang digunakan oleh VM.Untuk akses SSH ke node login Slurm, berikan izin berikut:
Izin Deskripsi Tujuan Compute OS Login Login ke VM sebagai pengguna standar (non-administrator). Jika sudodiperlukan, gunakan Login Admin OS Compute sebagai gantinya.SSH ke node login yang di-deploy IAP-secured Tunnel User Akses ke resource Tunnel yang menggunakan Identity-Aware Proxy. SSH ke node login yang di-deploy
Mengaktifkan API
Aktifkan Google Compute Engine API:
gcloud services enable compute.googleapis.comAktifkan jaringan layanan karena Filestore harus di-deploy sebelum membuat cluster.
gcloud services enable servicenetworking.googleapis.comAktifkan Cloud Storage API:
gcloud services enable storage.googleapis.comAktifkan Lustre API (jika menggunakan Lustre):
gcloud services enable lustre.googleapis.comAktifkan HCS API:
gcloud services enable hypercomputecluster.googleapis.comAktifkan Vertex AI API:
gcloud services enable aiplatform.googleapis.comAktifkan Cloud Resource Manager API:
gcloud services enable cloudresourcemanager.googleapis.com
Langkah berikutnya
Untuk panduan mendetail tentang cara membuat cluster pelatihan dan menjalankan beban kerja AI/ML, hubungi Sales Rep Anda.