Layanan jaringan untuk deployment

Dokumen ini menjelaskan layanan jaringan yang Anda konfigurasi untuk deployment VM dan cluster AI Hypercomputer. Layanan jaringan spesifik yang Anda konfigurasi untuk AI Hypercomputer bergantung pada opsi deployment yang Anda pilih untuk VM atau cluster.

Dokumen ini ditujukan untuk arsitek, engineer jaringan, dan developer yang ingin memahami layanan jaringan untuk deployment AI Hypercomputer mereka. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang konsep jaringan cloud dan komputasi terdistribusi. Untuk mengetahui informasi selengkapnya tentang opsi deployment, lihat Ringkasan pembuatan VM dan cluster.

Dokumen ini menjelaskan layanan jaringan yang Anda konfigurasi untuk opsi deployment berikut:

Mengonfigurasi jaringan untuk deployment GKE default

Saat membuat cluster GKE yang dioptimalkan untuk AI dengan setelan default, Anda menentukan setelan jaringan dalam blueprint Cluster Toolkit. Blueprint berubah berdasarkan jenis mesin yang Anda pilih. Misalnya, cetak biru Cluster Toolkit men-deploy cluster GKE dengan mesin A4.

Blueprint ini menyiapkan jaringan dengan cara berikut:

  • Menggunakan VPC default: Cetak biru menggunakan jaringan Virtual Private Cloud default untuk cluster GKE utama.
  • Membuat dua VPC tambahan: Blueprint ini menyiapkan dua jaringan Virtual Private Cloud yang berbeda. Salah satunya untuk Kartu Antarmuka Jaringan (NIC) host kedua, dan yang lainnya untuk traffic Akses Memori Langsung Jarak Jauh (RDMA) GPU-ke-GPU. Dengan menggunakan penyiapan beberapa VPC ini, Anda dapat meningkatkan isolasi jaringan. Untuk mengetahui informasi selengkapnya, lihat Lingkungan multi-VPC.
  • Menentukan rentang alamat IP: Cetak biru menetapkan ruang alamat IP pribadi untuk node GKE Anda. Alat ini mengonfigurasi rentang IP sekunder untuk Pod dan Layanan. GKE menggunakan alias alamat IP untuk mencegah konflik alamat IP.
  • Menerapkan profil jaringan yang dioptimalkan untuk RDMA: Cetak biru ini menerapkan profil jaringan yang telah ditetapkan dan dikelola Google ke VPC yang digunakan untuk traffic GPU. Profil ini secara otomatis mengonfigurasi jaringan untuk performa berkecepatan tinggi dan latensi rendah yang dibutuhkan RDMA. Untuk mengetahui informasi selengkapnya, lihat Profil jaringan untuk kasus penggunaan tertentu.
  • Mengotomatiskan pembuatan subnet untuk RDMA: Untuk memastikan performa terbaik, cetak biru ini secara otomatis membuat delapan subnet khusus dalam VPC RDMA. Tindakan ini akan membuat satu subnet untuk setiap delapan NIC RDMA di VM akselerator.
  • Mengonfigurasi aturan firewall: Cetak biru ini menyiapkan aturan firewall yang mengizinkan semua traffic Transmission Control Protocol (TCP), User Datagram Protocol (UDP), dan Internet Control Message Protocol (ICMP) antar-node dalam cluster. Hal ini memungkinkan node berkomunikasi secara bebas. Selain itu, konfigurasi rentang Classless Inter-Domain Routing (CIDR) yang diizinkan untuk membatasi akses ke bidang kontrol cluster GKE karena alasan keamanan.

Jejaring untuk deployment GKE dengan konfigurasi kustom

Jika Anda memerlukan kontrol yang lebih terperinci daripada yang disediakan oleh cetak biru Cluster Toolkit default, konfigurasikan objek jaringan secara manual untuk cluster GKE yang dioptimalkan untuk AI. Pendekatan ini memungkinkan Anda menyesuaikan penyiapan jaringan dengan kebutuhan spesifik workload Anda.

Konfigurasi yang Anda gunakan bergantung pada apakah Anda berencana menjalankan workload AI terdistribusi:

  • Untuk workload non-terdistribusi: Buat cluster GKE tanpa GPUDirect RDMA. Metode ini menggunakan satu jaringan VPC untuk semua komunikasi.
  • Untuk beban kerja terdistribusi: Buat cluster GKE dengan GPUDirect RDMA diaktifkan. Mengaktifkan GPUDirect RDMA sangat penting untuk mencapai performa optimal dalam skala besar. Konfigurasi ini melibatkan lingkungan multi-VPC yang memisahkan traffic umum dari komunikasi GPU-ke-GPU dengan bandwidth tinggi dan latensi rendah.

Untuk mengetahui petunjuk langkah demi langkah yang mendetail tentang cara membuat cluster GKE yang dioptimalkan untuk AI kustom bagi kedua skenario, lihat Membuat cluster GKE yang dioptimalkan untuk AI kustom.

Jaringan untuk deployment cluster Slurm

Anda dapat menggunakan Cluster Toolkit untuk men-deploy workload komputasi berperforma tinggi (HPC), AI, dan ML di Google Cloud melalui blueprint yang sangat dapat disesuaikan dan dapat diperluas. Misalnya, saat Anda membuat cluster Slurm yang dioptimalkan untuk AI dengan jenis mesin A4. Bagian ini menjelaskan layanan jaringan yang dikonfigurasi dalam cetak biru A4, yang membantu Anda memahami setelan jaringan yang dapat diubah saat membuat cluster Slurm.

Selama deployment, blueprint Cluster Toolkit menggunakan Packer untuk otomatis membuat image sistem operasi (OS) kustom. Packer membuat image dengan meluncurkan VM sementara dan menjalankan skrip untuk menyesuaikan boot disk. Anda dapat menyesuaikan image menggunakan skrip startup, skrip shell, atau buku pedoman Ansible. Kemudian, blueprint menggunakan image kustom ini untuk menginstal software sistem yang diperlukan untuk pengelolaan cluster dan workload di node Slurm.

Komponen jaringan yang dikonfigurasi blueprint adalah sebagai berikut:

  • Membuat tiga VPC berbeda: Blueprint ini membuat VPC utama untuk bidang kontrol Slurm, VPC sekunder untuk traffic tingkat host umum, dan VPC berperforma tinggi khusus untuk komunikasi GPU-ke-GPU. Pemisahan ini mencegah traffic pengelolaan mengganggu bidang data beban kerja. Untuk mengetahui informasi selengkapnya, lihat Lingkungan multi-VPC.
  • Menerapkan profil jaringan yang dioptimalkan untuk RDMA: Untuk bidang data GPU, cetak biru menerapkan profil jaringan yang dikelola Google dan telah dikonfigurasi sebelumnya yang dioptimalkan untuk RoCE. Jaringan ini secara otomatis membuat delapan subnet, satu untuk setiap NIC RDMA di VM akselerator. Untuk mengetahui informasi selengkapnya, lihat Profil jaringan untuk kasus penggunaan tertentu.
  • Mencadangkan rentang alamat IP untuk penyimpanan bersama: Cetak biru menetapkan rentang alamat IP khusus yang diperlukan oleh layanan Filestore. Filestore menyediakan direktori /home bersama untuk cluster.
  • Menyediakan jaringan build image yang terisolasi: Cetak biru ini membuat VPC sementara yang hanya digunakan selama proses membangun image VM kustom untuk node cluster. Hal ini menyediakan lingkungan jaringan terisolasi untuk operasi Packer.

Untuk mengetahui opsi deployment lainnya, lihat dokumentasi Cluster Toolkit.

Jaringan untuk instance Compute Engine

Dengan Compute Engine, Anda dapat membuat VM mandiri, instance VM secara massal, dan grup instance terkelola (MIG) untuk berbagai jenis mesin yang dioptimalkan untuk akselerator.

Jenis mesin ini memerlukan konfigurasi jaringan multi-VPC untuk menangani berbagai jenis traffic. Konfigurasi ini memisahkan traffic host-ke-host umum dari komunikasi GPU-ke-GPU bandwidth tinggi. Persyaratan jaringan tertentu bervariasi, bergantung pada jenis mesin.

Untuk mengetahui informasi mendetail tentang NIC dan konfigurasi jaringan untuk jenis mesin Anda, lihat Meninjau bandwidth jaringan dan pengaturan NIC.

Untuk mengetahui petunjuk langkah demi langkah tentang cara membuat jaringan VPC ini, lihat Membuat jaringan VPC.

Langkah berikutnya