Kemampuan pengelolaan cluster

Seri mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU) dirancang untuk memungkinkan Anda menjalankan cluster kecerdasan buatan (AI) dan machine learning (ML) skala besar serta menyediakan kemampuan pengelolaan cluster berikut:

Kolokasi sumber daya infrastruktur AI
Penempatan sesuai topologi cluster
Mode operasional cluster
Penjadwalan dan kontrol pemeliharaan cluster
Alat diagnostik dan pemantauan cluster

Kolokasi resource infrastruktur AI

Saat menggunakan A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU), Anda dapat meminta mesin host yang disediakan Compute Engine sedekat mungkin. Mesin ini menawarkan fitur berikut:

Compute Engine menyediakan mesin sebagai blok resource.
A fabric jaringan machine learning (ML) dinamis menghubungkan mesin.

Pengaturan resource ini meminimalkan hop jaringan dan mengoptimalkan latensi jaringan terendah. Untuk mempelajari lebih lanjut cara mendapatkan kapasitas untuk men-deploy blok mesin yang dioptimalkan untuk akselerator yang dialokasikan secara padat, lihat Ringkasan kapasitas.

Penempatan sesuai topologi cluster

Setelah membuat instance komputasi menggunakan jenis mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU), Anda bisa mendapatkan informasi topologi di tingkat node dan cluster. Informasi ini membantu Anda melakukan hal berikut:

Sesuaikan desain aplikasi atau workload Anda untuk lebih meminimalkan latensi jaringan.
Pahami dan pecahkan masalah latensi jaringan dan masalah performa untuk instance yang sering berkomunikasi satu sama lain. Masalah ini dapat terjadi jika instance ditempatkan terlalu jauh secara tidak terduga.

Untuk mengetahui informasi selengkapnya, lihat Melihat topologi instance komputasi.

Mode operasional cluster

Saat Anda mencadangkan kapasitas untuk membuat instance atau cluster komputasi menggunakan jenis mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU), jenis mesin yang Anda cadangkan akan menentukan mode operasional cluster untuk instance. Mode ini menentukan perilaku instance Anda setelah terjadi error host atau laporan host yang salah. Mode operasional yang tersedia untuk instance adalah mode terkelola, tempat Compute Engine secara otomatis mengganti mesin yang rusak, tetapi menahan sebagian kapasitas yang dicadangkan untuk membantu memastikan bahwa instance Anda memiliki resource yang diperlukan untuk memulai ulang. Atau mode semua kapasitas, tempat Anda memiliki akses ke kapasitas yang dicadangkan penuh, tetapi bertanggung jawab untuk mengelola kegagalan dan pemeliharaan terencana.

Untuk mengetahui informasi selengkapnya, lihat Mode operasional pemesanan.

Penjadwalan dan kontrol pemeliharaan cluster

Anda mengontrol pemeliharaan mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU) dengan menggunakan penjadwalan yang kompatibel dengan topologi dalam blok resource. Kemampuan ini membantu menyinkronkan upgrade sehingga workload Anda lebih tahan terhadap peristiwa host dan meminimalkan gangguan. Pendekatan ini membantu meningkatkan goodput beban kerja Anda.

Untuk memfasilitasi kontrol penuh atas peristiwa pemeliharaan, Anda dapat menggunakan fitur berikut:

Jenis penjadwalan pemeliharaan
Mengelola acara penyelenggara

Jenis penjadwalan pemeliharaan

Saat mencadangkan kapasitas untuk membuat instance komputasi atau cluster mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU), Anda dapat menentukan cara Compute Engine mempertahankan infrastruktur tempat instance Anda berjalan. Berdasarkan jenis mesin yang ingin Anda gunakan untuk instance, Anda dapat memilih antara pemeliharaan yang disinkronkan di seluruh instance (dikelompokkan), atau jadwal pemeliharaan yang berbeda (independen).

Untuk mengetahui informasi selengkapnya, lihat Jenis penjadwalan pemeliharaan.

Mengelola acara penyelenggara

Setelah membuat instance A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU) serta memulai workload, Anda dapat menyiapkan pemberitahuan dan menerima notifikasi saat pemeliharaan untuk instance atau blok yang dicadangkan dijadwalkan, dimulai, atau selesai. Anda juga dapat melihat dan, jika perlu, memulai pemeliharaan secara manual pada instance atau blok yang dicadangkan sebelum waktu yang dijadwalkan. Opsi ini membantu Anda mengontrol dan meminimalkan periode nonaktif pada workload secara proaktif.

Untuk informasi selengkapnya, lihat referensi berikut:

Alat diagnostik dan pemantauan cluster

Untuk pemantauan dan pemecahan masalah, mesin A4X Max, A4X, A4, A3 Ultra, A3 Mega, dan A3 High (8 GPU) mencakup layanan berikut:

Prediksi penurunan kualitas VM, yang membantu Anda mengidentifikasi VM yang cenderung mengalami penurunan kualitas dalam lima jam ke depan.
Pelaporan host yang rusak, yang dapat Anda gunakan untuk menandai masalah pada masing-masing mesin host.
Dukungan untuk metrik Cloud Monitoring, yang membantu Anda memantau performa jaringan dan GPU.