Layanan jaringan untuk deployment

Dokumen ini menjelaskan layanan jaringan yang Anda konfigurasi untuk deployment cluster dan VM AI Hypercomputer. Layanan jaringan tertentu yang Anda konfigurasi untuk AI Hypercomputer bergantung pada opsi deployment yang Anda pilih untuk VM atau cluster.

Dokumen ini ditujukan untuk arsitek, engineer jaringan, dan developer yang ingin memahami layanan jaringan untuk deployment AI Hypercomputer mereka. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang konsep jaringan cloud dan komputasi terdistribusi. Untuk mengetahui informasi selengkapnya tentang opsi deployment, lihat Ringkasan pembuatan VM dan cluster overview.

Dokumen ini menjelaskan secara mendetail layanan jaringan yang Anda konfigurasi untuk opsi deployment berikut:

Mengonfigurasi jaringan untuk deployment GKE default

Saat Anda membuat cluster GKE yang dioptimalkan untuk AI dengan setelan default, Anda akan menentukan setelan jaringan di blueprint Cluster Toolkit. Blueprint akan berubah berdasarkan jenis mesin yang Anda pilih. Misalnya, blueprint Cluster Toolkit men-deploy cluster GKE dengan mesin A4.

Blueprint menyiapkan jaringan dengan cara berikut:

  • Menggunakan VPC default: Blueprint menggunakan jaringan Virtual Private Cloud default untuk cluster GKE utama.
  • Membuat dua VPC tambahan: Blueprint menyiapkan dua jaringan Virtual Private Cloud yang berbeda. Satu untuk Kartu Antarmuka Jaringan (NIC) host kedua, dan yang lainnya untuk traffic Akses Memori Langsung Jarak Jauh (RDMA) Unit Pemrosesan Grafis (GPU) ke GPU. Dengan menggunakan penyiapan multi-VPC ini, Anda dapat meningkatkan isolasi jaringan. Untuk mengetahui informasi selengkapnya, lihat Lingkungan multi-VPC.
  • Menentukan rentang alamat IP: Blueprint menetapkan ruang alamat IP pribadi untuk node GKE Anda. Blueprint ini mengonfigurasi rentang IP sekunder untuk Pod dan Layanan. GKE menggunakan alias alamat IP untuk mencegah konflik alamat IP.
  • Menerapkan profil jaringan yang dioptimalkan untuk RDMA: Blueprint menerapkan profil jaringan yang dikelola Google dan telah ditetapkan sebelumnya ke VPC yang digunakan untuk traffic GPU. Profil ini secara otomatis mengonfigurasi jaringan untuk performa berkecepatan tinggi dan berlatensi rendah yang diperlukan RDMA. Untuk mengetahui informasi selengkapnya, lihat Profil jaringan untuk kasus penggunaan tertentu.
  • Mengotomatiskan pembuatan subnet untuk RDMA: Untuk memastikan performa terbaik, blueprint secara otomatis membuat delapan subnet khusus dalam VPC RDMA. Blueprint ini membuat satu subnet untuk masing-masing dari delapan NIC RDMA pada VM akselerator.
  • Mengonfigurasi aturan firewall: Blueprint menyiapkan aturan firewall yang mengizinkan semua traffic Transmission Control Protocol (TCP), User Datagram Protocol (UDP), dan Internet Control Message Protocol (ICMP) antar-node dalam cluster. Hal ini memungkinkan node berkomunikasi secara bebas. Blueprint ini juga mengonfigurasi rentang Classless Inter-Domain Routing (CIDR) yang diotorisasi untuk membatasi akses ke bidang kontrol cluster GKE karena alasan keamanan.

Jaringan untuk deployment GKE dengan konfigurasi kustom

Jika Anda memerlukan kontrol yang lebih terperinci daripada yang disediakan blueprint Cluster Toolkit default, konfigurasikan objek jaringan secara manual untuk cluster GKE yang dioptimalkan untuk AI. Pendekatan ini memungkinkan Anda menyesuaikan penyiapan jaringan dengan kebutuhan spesifik workload Anda.

Konfigurasi yang Anda gunakan bergantung pada apakah Anda berencana menjalankan workload AI terdistribusi:

  • Untuk workload yang tidak terdistribusi: Buat cluster GKE tanpa GPUDirect RDMA. Metode ini menggunakan satu jaringan VPC untuk semua komunikasi.
  • Untuk workload terdistribusi: Buat cluster GKE dengan GPUDirect RDMA diaktifkan. Mengaktifkan GPUDirect RDMA sangat penting untuk mencapai performa optimal dalam skala besar. Konfigurasi ini melibatkan lingkungan multi-VPC yang memisahkan traffic tujuan umum dari komunikasi GPU-ke-GPU ber-bandwidth tinggi dan berlatensi rendah.

Untuk mengetahui petunjuk langkah demi langkah yang mendetail tentang cara membuat cluster GKE khusus yang dioptimalkan untuk AI pada kedua skenario, lihat Membuat cluster GKE khusus yang dioptimalkan untuk AI GKE cluster.

Jaringan untuk deployment cluster Slurm

Anda dapat menggunakan Cluster Toolkit untuk men-deploy komputasi berperforma tinggi (HPC), AI, dan workload ML di Google Cloud melalui blueprint yang sangat dapat disesuaikan dan diperluas. Misalnya, saat Anda membuat cluster Slurm yang dioptimalkan untuk AI dengan jenis mesin A4. Bagian ini menjelaskan layanan jaringan yang dikonfigurasi dalam blueprint A4, yang membantu Anda memahami setelan jaringan yang dapat diubah saat membuat cluster Slurm.

Selama deployment, blueprint Cluster Toolkit menggunakan Packer untuk otomatis membuat image sistem operasi (OS) kustom. Packer membuat image dengan meluncurkan VM sementara dan menjalankan skrip untuk menyesuaikan boot disk. Anda dapat menyesuaikan image menggunakan skrip startup, skrip shell, atau playbook Ansible. Blueprint kemudian menggunakan image kustom ini untuk menginstal software sistem yang diperlukan untuk pengelolaan cluster dan workload di node Slurm.

Komponen jaringan yang dikonfigurasi blueprint adalah sebagai berikut:

  • Membuat tiga VPC yang berbeda: Blueprint membuat VPC utama untuk bidang kontrol Slurm, VPC sekunder untuk traffic tingkat host umum, dan VPC berperforma tinggi khusus untuk komunikasi GPU-ke-GPU. Pemisahan ini mencegah traffic pengelolaan mengganggu bidang data workload. Untuk mengetahui informasi selengkapnya, lihat Lingkungan multi-VPC.
  • Menerapkan profil jaringan yang dioptimalkan untuk RDMA: Untuk bidang data GPU, blueprint menerapkan profil jaringan yang dikelola Google dan telah dikonfigurasi sebelumnya yang dioptimalkan untuk RoCE. Blueprint ini secara otomatis membuat delapan subnet, satu untuk setiap NIC RDMA di VM akselerator. Untuk mengetahui informasi selengkapnya, lihat Profil jaringan untuk kasus penggunaan tertentu.
  • Mencadangkan rentang alamat IP untuk penyimpanan bersama: Blueprint menetapkan rentang alamat IP khusus yang diperlukan oleh layanan Filestore. Filestore menyediakan direktori /home bersama untuk cluster.
  • Menyediakan jaringan build image yang terisolasi: Blueprint membuat VPC sementara yang hanya digunakan selama proses pembuatan image VM kustom untuk node cluster. Hal ini menyediakan lingkungan jaringan yang terisolasi untuk operasi Packer.

Untuk mengetahui opsi deployment lainnya, lihat dokumentasi Cluster Toolkit.

Jaringan untuk instance Compute Engine

Dengan Compute Engine, Anda dapat membuat VM mandiri, instance VM secara massal, dan grup instance terkelola (MIG) untuk berbagai jenis mesin yang dioptimalkan untuk akselerator.

Jenis mesin ini memerlukan konfigurasi jaringan multi-VPC untuk menangani berbagai jenis traffic. Konfigurasi ini memisahkan traffic host-ke-host umum dari komunikasi GPU-ke-GPU ber-bandwidth tinggi. Kebutuhan jaringan tertentu bervariasi bergantung pada jenis mesin.

Untuk mengetahui informasi mendetail tentang NIC dan konfigurasi jaringan untuk jenis mesin Anda, lihat Meninjau bandwidth jaringan dan pengaturan NIC.

Untuk mengetahui petunjuk langkah demi langkah tentang cara membuat jaringan VPC ini, lihat Membuat jaringan VPC.

Langkah berikutnya