Storage

Jika Anda tertarik dengan cluster pelatihan Vertex AI, hubungi perwakilan penjualan Anda untuk mendapatkan akses.

Memilih konfigurasi penyimpanan yang tepat sangat penting untuk performa dan stabilitas cluster pelatihan Anda. Layanan ini terintegrasi dengan dua solusi penyimpanan berperforma tinggi yang berbeda:

  • Filestore: Layanan file terkelola yang diperlukan dan menyediakan direktori /home bersama untuk semua node di cluster.
  • Google Cloud Managed Lustre: Sistem file paralel opsional yang didesain untuk performa I/O ekstrem, ideal untuk pelatihan pada set data besar.

Halaman ini memberikan ringkasan tentang penggunaan utamanya dan menguraikan persyaratan jaringan dan deployment tertentu untuk integrasi yang berhasil dengan cluster Anda.

Integrasi penyimpanan untuk cluster pelatihan

Cluster pelatihan Vertex AI mengandalkan solusi penyimpanan yang spesifik dan terhubung ke jaringan untuk pengoperasiannya. Filestore diperlukan untuk menyediakan direktori /home bersama untuk cluster, sementara Managed Lustre adalah sistem file berperforma tinggi opsional untuk workload yang berat.

Anda harus mengonfigurasi jaringan untuk layanan penyimpanan ini dengan benar sebelum men-deploy cluster.

Filestore untuk direktori beranda

Layanan ini menggunakan instance Filestore untuk menyediakan direktori /home bersama untuk cluster. Untuk memastikan konektivitas yang tepat, Anda harus membuat resource cloud dalam urutan tertentu ini:

  1. Buat Jaringan VPC: Pertama, deploy jaringan VPC yang dikonfigurasi dengan MTU yang direkomendasikan (misalnya, 8896).
  2. Buat instance Filestore: Selanjutnya, deploy instance Filestore ke VPC yang baru saja Anda buat.
  3. Buat cluster pelatihan: Terakhir, deploy cluster, yang kemudian akan dapat terhubung ke instance Filestore dalam jaringan yang sama.

Google Cloud Managed Lustre untuk workload berperforma tinggi

Untuk beban kerja yang memerlukan performa I/O maksimum, Anda dapat melampirkan sistem file Managed Lustre. Layanan ini terhubung ke VPC Anda menggunakan Private Service Access.

Batasan jaringan penting: Tidak ada peering transitif

Batasan penting untuk Filestore dan Lustre Terkelola Google Cloud adalah bahwa keduanya tidak mendukung peering transitif. Artinya, hanya resource dalam VPC yang terhubung langsung yang dapat mengakses layanan penyimpanan. Misalnya, jika VPC cluster Anda (N1) di-peering dengan layanan penyimpanan, VPC lain (N2) yang di-peering dengan N1 tidak akan memiliki akses.

Integrasi penyimpanan untuk cluster pelatihan

Cluster pelatihan Vertex AI mengandalkan solusi penyimpanan spesifik dan berjaringan untuk pengoperasiannya. Filestore diperlukan untuk menyediakan direktori /home bersama untuk cluster, sementara Google Cloud Managed Lustre adalah sistem file berperforma tinggi opsional untuk workload yang berat. Anda harus mengonfigurasi jaringan untuk layanan penyimpanan ini dengan benar sebelum men-deploy cluster.

Filestore

Penggunaan utama Filestore dengan cluster pelatihan

Selain perannya sebagai direktori beranda wajib, Filestore menyediakan cara yang fleksibel untuk membagikan data dengan cluster Anda.
Penyimpanan bersama tambahan: Anda dapat melampirkan satu atau beberapa instance Filestore tambahan ke node pool mana pun. Hal ini berguna untuk menyediakan set data bersama, biner aplikasi, atau file umum lainnya ke tugas pelatihan Anda. Jika ditentukan dalam konfigurasi node pool, cluster pelatihan akan otomatis memasang instance ini ke direktori /mnt/filestore di setiap node.

Persyaratan Filestore

Integrasi Filestore yang berhasil dengan cluster pelatihan memerlukan konfigurasi berikut:

  • Aktifkan API: Filestore API harus diaktifkan di project Google Cloud Anda sebelum Anda dapat membuat cluster.
  • Direktori /home Wajib: Setiap cluster pelatihan memerlukan instance Filestore khusus untuk berfungsi sebagai direktori /home bersama. Instance ini memiliki persyaratan konfigurasi tertentu:
    • Jaringan: Harus berada di jaringan VPC yang sama dengan node komputasi dan login cluster.
    • Lokasi: Harus berada di region atau zona yang sama dengan cluster.
    • Konfigurasi: Anda harus menentukan nama resource lengkap instance ini di kolom orchestrator_spec.slurm_spec.home_directory_storage saat membuat cluster melalui API.

Mengonfigurasi penyimpanan Filestore

Buat instance Filestore regional atau zona di zona tempat Anda ingin membuat cluster. Vertex AI API memerlukan Filestore yang dilampirkan ke cluster untuk berfungsi sebagai direktori /home. Filestore ini harus berada di zona atau region yang sama dan di jaringan yang sama dengan semua node komputasi dan node login. Dalam contoh di bawah, 172.16.10.0/24 digunakan untuk deployment Filestore.

    SERVICE_TIER=ZONAL # Can use BASIC_SSD

    # Create reserved IP address range
    gcloud compute addresses create CLUSTER_IDfs-ip-range \
        --project=PROJECT_ID \
        --global \
        --purpose=VPC_PEERING \
        --addresses=172.16.10.0 \
        --prefix-length=24 \
        --description="Filestore instance reserved IP range" \
        --network=NETWORK

    # Get the CIDR range
    FS_IP_RANGE=$(
      gcloud compute addresses describe CLUSTER_IDfs-ip-range \
        --global  \
        --format="value[separator=/](address, prefixLength)"
    )

    # Create the Filestore instance
    gcloud filestore instances create FS_INSTANCE_ID \
        --project=PROJECT_ID \
        --location=ZONE \
        --tier=ZONAL \
        --file-share=name="nfsshare",capacity=1024 \
    --network=name=NETWORK,connect-mode=DIRECT_PEERING,reserved-ip-range="${FS_IP_RANGE}"
  

Lustre

Google Cloud Managed Lustre menghadirkan sistem file paralel berperforma tinggi dan terkelola sepenuhnya yang dioptimalkan untuk aplikasi AI dan HPC. Dengan kapasitas skala multi-petabyte dan throughput hingga 1 TBps, Managed Lustre memfasilitasi migrasi workload yang menuntut ke cloud.

Instance Managed Lustre berada di zona dalam region. Region adalah lokasi geografis spesifik tempat Anda dapat menjalankan resource. Setiap region dibagi lagi menjadi beberapa zona. Misalnya, region us-central1 di Amerika Serikat bagian tengah memiliki zona us-central1-a, us-central1-b, us-central1-c, dan us-central1-f. Untuk mengetahui informasi selengkapnya, lihat Geografi dan region.

Untuk mengurangi latensi jaringan, sebaiknya buat instance Managed Lustre di region dan zona yang dekat dengan tempat Anda berencana menggunakannya.

Saat membuat instance Managed Lustre, Anda harus menentukan properti berikut:

  • Nama instance yang digunakan oleh Google Cloud.
  • Nama sistem file yang digunakan oleh alat sisi klien, misalnya lfs.
  • Kapasitas penyimpanan dalam gibibyte (GiB). Kapasitas dapat berkisar dari 9.000 GiB hingga ~8 PiB (7.632.000 GiB). Ukuran maksimum instance bergantung pada tingkat performanya.
  • Managed Lustre menawarkan tingkat performa mulai dari 125 MBps per TiB hingga 1000 MBps per TiB.
  • Untuk mendapatkan performa terbaik, buat instance di zona yang sama dengan cluster pelatihan Anda.
  • Jaringan VPC untuk instance ini harus sama dengan yang digunakan cluster pelatihan Anda.

Managed Lustre menawarkan 4 tingkat performa, yang masing-masing memiliki kecepatan throughput maksimum yang berbeda per TiB. Tingkat performa juga memengaruhi ukuran instance minimum dan maksimum, serta ukuran langkah antara nilai kapasitas yang dapat diterima. Anda tidak dapat mengubah tingkat performa instance setelah dibuat.

Men-deploy Managed Lustre memerlukan Akses Layanan Pribadi, yang membuat peering VPC antara VPC cluster pelatihan dan VPC yang menghosting Managed Lustre, menggunakan subnet /20 khusus.

Mengonfigurasi instance Managed Lustre (opsional)

Gunakan Google Cloud Managed Lustre hanya jika Anda ingin menggunakan Managed Lustre di Model Development Service.

Google Cloud Managed Lustre adalah layanan sistem file paralel berperforma tinggi dan terkelola sepenuhnya di Google Cloud. VM ini dirancang khusus untuk mempercepat workload yang menuntut di AI/Machine Learning dan Komputasi Berperforma Tinggi (HPC).

Untuk mendapatkan performa optimal saat menggunakan cluster pelatihan, Google Cloud Managed Lustre harus di-deploy dari VPC dan zona yang sama dengan cluster pelatihan Anda menggunakan peering VPC untuk jaringan layanan.

Membuat instance Lustre

    gcloud lustre instances create LUSTRE_INSTANCE_ID \
    --project=PROJECT_ID \
    --location=ZONE \
    --filesystem=lustrefs \
    --per-unit-storage-throughput=500 \
    --capacity-gib=36000 \
    --network=NETWORK_NAME

  

Pemasangan Cloud Storage

Sebagai prasyarat, pastikan akun layanan VM memiliki peran Storage Object User.

Pemasangan default

Cluster pelatihan Vertex AI menggunakan Cloud Storage FUSE untuk memasang bucket Cloud Storage secara dinamis di semua node login dan komputasi, sehingga dapat diakses di direktori /gcs. Bucket yang dipasang secara dinamis tidak dapat dicantumkan dari direktori pemasangan root /gcs. Anda dapat mengakses bucket yang dipasang secara dinamis sebagai subdirektori:

user@testcluster:$ ls /gcs/your-bucket-name
user@testcluster:$ cd /gcs/your-bucket-name

Dudukan kustom

Untuk memasang bucket Cloud Storage tertentu ke direktori lokal dengan opsi kustom, gunakan struktur perintah berikut dengan meneruskannya sebagai bagian dari skrip startup saat pembuatan cluster, atau menjalankannya langsung di node setelah cluster dibuat.

sudo mkdir -p $MOUNT_DIR
echo "$GCS_BUCKET $MOUNT_DIR gcsfuse $OPTION_1,$OPTION_2,..." | sudo tee -a /etc/fstab
sudo mount -a

Misalnya, untuk memasang bucket mtdata ke direktori /data, gunakan perintah berikut:

sudo mkdir -p /data
echo "mtdata /data gcsfuse defaults,_netdev,implicit_dirs,allow_other,dir_mode=777,file-mode=777,metadata_cache_negative_ttl_secs=0,metadata_cache_ttl_secs=-1,stat_cache_max_size_mb=-1,type_cache_max_size_mb=-1,enable_streaming_writes=true" | sudo tee -a /etc/fstab
sudo mount -a

Untuk penyiapan yang sepenuhnya otomatis dan konsisten, sertakan skrip pemasangan kustom Anda dalam skrip startup cluster. Praktik ini memastikan bahwa bucket Cloud Storage Anda dipasang secara otomatis di semua node saat startup, sehingga tidak memerlukan konfigurasi manual.

Untuk rekomendasi konfigurasi tambahan yang disesuaikan dengan workload AI/ML, lihat Panduan praktik terbaik penyesuaian performa. Dokumen ini memberikan panduan khusus untuk mengoptimalkan Cloud Storage FUSE untuk pelatihan, inferensi, dan pembuatan checkpoint.

Langkah berikutnya

Langkah berikutnya berfokus pada penggunaan cluster secara efektif untuk pelatihan skala besar.

  • Sesuaikan kode Anda untuk pelatihan terdistribusi: Untuk memanfaatkan sepenuhnya cluster multi-node dan penyimpanan berperforma tinggi, sesuaikan kode pelatihan Anda untuk lingkungan terdistribusi.
  • Mengorkestrasi tugas dengan Vertex AI Pipelines: Untuk alur kerja produksi, otomatiskan proses penyiapan data, pengiriman tugas, dan pendaftaran model menggunakan Vertex AI Pipelines.
  • Memantau dan men-debug tugas pelatihan: Lacak progres dan pemanfaatan resource tugas pelatihan terdistribusi untuk mengidentifikasi dan menyelesaikan masalah.