Pemeliharaan dan update cloud pribadi

Lingkungan cloud pribadi dirancang dengan cara berikut agar tidak memiliki satu titik kegagalan:

  • Cluster ESXi dikonfigurasi dengan ketersediaan tinggi (HA) vSphere. Cluster diberi ukuran agar memiliki minimal satu node cadangan untuk ketahanan.
  • vSAN menyediakan penyimpanan utama yang redundan, yang memerlukan minimal tiga node untuk memberikan perlindungan terhadap satu kegagalan. Untuk cluster yang lebih besar, Anda dapat mengonfigurasi vSAN untuk memberikan ketahanan yang lebih tinggi.
  • Virtual machine (VM) vCenter, PSC, dan NSX Manager dikonfigurasi dengan penyimpanan RAID-10 untuk melindungi dari kegagalan penyimpanan. Selain itu, VM dilindungi dari kegagalan node dan jaringan oleh vSphere HA.
  • Host ESXi memiliki kipas dan NIC yang redundan.
  • Switch TOR dan spine dikonfigurasi dalam pasangan HA untuk memberikan ketahanan.

VMware Engine terus memantau waktu beroperasi, memantau ketersediaan, dan memberikan SLA ketersediaan untuk jenis VM berikut:

  • Host ESXi
  • vCenter
  • PSC
  • NSX Manager

VMware Engine terus memantau kegagalan berikut:

  • Hard disk
  • Port NIC fisik
  • Server
  • Penggemar
  • Daya
  • Sakelar
  • Mengganti port

Jika disk atau node gagal, VMware Engine akan segera dan otomatis menambahkan node baru ke cluster VMware yang terpengaruh untuk memulihkan operasionalitas layanan. Proses berikut terjadi di cloud pribadi Anda:

  • Pemantauan dan pemberitahuan otomatis: Sistem pemantauan kami terus melacak kondisi node Anda. Jika terdeteksi masalah yang menunjukkan potensi kegagalan hardware, pemberitahuan akan dipicu.
  • Human-in-the-loop untuk diagnosis: Meskipun sistem dirancang untuk penggantian otomatis, engineer kami meninjau pemberitahuan ini untuk menentukan akar penyebabnya dengan cepat. Hal ini memastikan bahwa kita mengatasi masalah yang benar dan mencegah penggantian node yang tidak perlu saat solusi yang lebih sederhana (seperti melakukan reboot) direkomendasikan. Misalnya, masalah jaringan sementara atau gangguan software dapat memicu pemberitahuan serupa dengan kegagalan hardware, dan kami ingin menghindari dampak pada cluster Anda dengan penggantian node jika tindakan tersebut mungkin bukan tindakan yang direkomendasikan. Penggantian node yang tidak perlu akan memicu Sinkronisasi Ulang vSAN penuh, yang merupakan operasi intensif I/O penyimpanan.
  • Penggantian node otomatis untuk kegagalan hardware: Jika teknisi kami mengonfirmasi kegagalan hardware, proses penggantian node otomatis akan segera dimulai. Node baru ditambahkan ke cluster Anda, dan vSAN memulai sinkronisasi ulang data di node tersebut.

Elemen VMware berikut di cloud pribadi dicadangkan, dikelola, dan diperbarui:

  • ESXi
  • vCenter Platform Services Controller
  • vSAN
  • NSX

Pencadangan dan pemulihan

Cadangan mencakup hal berikut:

  • Pencadangan inkremental harian untuk aturan vCenter, PSC, dan DVS.
  • API bawaan vCenter untuk mencadangkan komponen di lapisan aplikasi.
  • Pencadangan otomatis sebelum update atau upgrade software pengelolaan VMware.

Pemeliharaan

Jenis pemeliharaan terencana berikut disertakan.

Pemeliharaan backend dan internal

Pemeliharaan backend dan internal biasanya melibatkan konfigurasi ulang aset fisik atau penginstalan patch software. Hal ini tidak memengaruhi konsumsi normal aset yang dilayani. Dengan NIC redundan yang menuju ke setiap rak fisik, traffic jaringan normal dan operasi cloud pribadi tidak terpengaruh. Anda mungkin melihat dampak performa hanya jika organisasi Anda berencana menggunakan bandwidth redundan penuh selama interval pemeliharaan.

Pemeliharaan portal

Beberapa periode nonaktif layanan terbatas diperlukan saat bidang kontrol atau infrastruktur diupdate. Interval pemeliharaan dapat dilakukan sesering sebulan sekali, dan frekuensinya diperkirakan akan menurun seiring waktu. VMware Engine akan memberi tahu Anda tentang pemeliharaan portal yang akan datang dan berupaya menjaga interval pemeliharaan sesingkat mungkin. Selama interval pemeliharaan portal, layanan berikut akan terus berfungsi tanpa terpengaruh:

  • Bidang pengelolaan dan aplikasi VMware
  • Akses vCenter
  • Semua jaringan dan penyimpanan

Pemeliharaan infrastruktur VMware

Terkadang perlu dilakukan perubahan pada konfigurasi infrastruktur VMware. Interval ini dapat terjadi setiap satu hingga dua bulan, tetapi frekuensinya diperkirakan akan menurun seiring waktu. Google biasanya dapat melakukan pemeliharaan jenis ini, termasuk update sertifikat, tanpa mengganggu penggunaan cloud pribadi normal. Selama interval pemeliharaan VMware, layanan berikut akan terus berfungsi tanpa dampak apa pun:

  • Bidang pengelolaan dan aplikasi VMware
  • Akses vCenter
  • Semua jaringan dan penyimpanan

Update dan upgrade

VMware Engine bertanggung jawab atas pengelolaan siklus proses software VMware (ESXi, vCenter, PSC, dan NSX) di cloud pribadi.

Update software mencakup hal berikut:

  • Patch: patch keamanan atau perbaikan bug yang dirilis oleh VMware
  • Update: perubahan versi kecil komponen stack VMware
  • Upgrade: perubahan versi utama komponen stack VMware

VMware Engine menguji patch keamanan penting segera setelah tersedia dari VMware. Google akan berupaya memulai peluncuran patch penting yang relevan ke lingkungan cloud pribadi dalam waktu satu minggu setelah ketersediaannya. Jadwal penyelesaian patching yang sebenarnya akan bervariasi, bergantung pada ketersediaan penjadwalan dan kebutuhan untuk mengatur waktu patching guna menghindari periode nonaktif untuk workload pelanggan.

Saat versi utama baru software VMware tersedia, VMware Engine akan berkoordinasi dengan pelanggan untuk menentukan periode pemeliharaan yang sesuai untuk menerapkan upgrade. VMware Engine menerapkan upgrade versi utama setidaknya enam bulan setelah versi utama dirilis dan memberi tahu pelanggan satu bulan sebelum menerapkan upgrade versi utama.

VMware Engine juga bekerja sama dengan vendor industri utama untuk memastikan bahwa mereka mendukung versi software VMware terbaru sebelum meluncurkan upgrade versi utama. Untuk mengetahui informasi tentang dukungan untuk vendor tertentu, hubungi Cloud Customer Care.

Tanggung jawab pembaruan sertifikat

Pembaruan sertifikat adalah tanggung jawab Google. Jika Anda menerima error update sertifikat, tidak ada tindakan yang diperlukan dan sertifikat diperpanjang sebelum masa berlakunya berakhir. Namun, jika LDAPS dikonfigurasi di cloud pribadi Anda, Anda bertanggung jawab sepenuhnya atas sertifikat tertentu yang terkait dengan error tersebut. Update sertifikat dapat terjadi selama pemeliharaan infrastruktur VMware.

Persiapan

Google merekomendasikan agar Anda melakukan persiapan berikut sebelum memulai update atau upgrade:

  • Periksa kapasitas penyimpanan: Pastikan pemanfaatan ruang penyimpanan cluster vSphere Anda lebih rendah dari 80% untuk mempertahankan SLA. Jika pemakaian lebih dari 80%, upgrade mungkin memerlukan waktu lebih lama dari biasanya atau gagal sepenuhnya. Jika pemakaian penyimpanan Anda lebih tinggi dari 70%, tambahkan node untuk memperluas cluster dan menghindari potensi downtime selama upgrade.
  • Ubah kebijakan penyimpanan vSAN dengan FTT 0: Ubah VM yang dikonfigurasi dengan kebijakan penyimpanan vSAN untuk Toleransi Terhadap Kegagalan (FTT) 0 ke kebijakan penyimpanan vSAN dengan FTT 1 untuk mempertahankan SLA.
  • Hapus pemasangan CD VM: Hapus CD yang dipasang di VM workload Anda yang tidak kompatibel dengan vMotion.
  • Selesaikan penginstalan alat VMware: Selesaikan penginstalan atau upgrade alat VMware sebelum upgrade terjadwal dimulai.
  • Menghapus berbagi bus SCSI di VM: Hapus berbagi bus SCSI di VM jika Anda tidak ingin VM dimatikan.
  • Menghapus VM dan datastore yang tidak dapat diakses: Hapus VM yang tidak digunakan dan tidak dapat diakses dari inventaris vCenter. Hapus semua penyimpanan data eksternal yang tidak dapat diakses.
  • Nonaktifkan aturan Distributed Resource Scheduler (DRS): Aturan DRS yang menyematkan VM ke host mencegah node memasuki mode pemeliharaan. Anda dapat menonaktifkan aturan DRS sebelum upgrade dan mengaktifkannya setelah upgrade selesai.
  • Perbarui add-on VMware dan solusi pihak ketiga: Pastikan add-on VMware dan solusi pihak ketiga yang di-deploy di vCenter cloud pribadi Anda kompatibel dengan versi setelah upgrade yang disebutkan sebelumnya. Contoh alat mencakup alat untuk pencadangan, pemantauan, orkestrasi pemulihan dari bencana, dan fungsi serupa lainnya. Hubungi vendor solusi dan lakukan update lebih awal jika perlu untuk memastikan kompatibilitas setelah upgrade.

Durasi upgrade dan proses latar belakang

Faktor-faktor berikut dapat memengaruhi durasi upgrade:

  • Penyinkronan Ulang vSAN: Durasi proses upgrade, khususnya penghapusan node sementara, bervariasi berdasarkan persyaratan penyinkronan ulang data vSAN. Tugas penyinkronan ulang vSAN dan penyeimbangan ulang cluster mungkin melampaui periode pemeliharaan yang ditentukan. Ini adalah proses latar belakang yang diharapkan dan tidak akan mengganggu ketersediaan workload.
  • Masalah hardware yang mendasarinya: Dalam kasus yang jarang terjadi, reboot host selama upgrade dapat mengungkapkan kesalahan hardware yang mendasarinya. Untuk mempertahankan SLA dan kesehatan cluster, sistem memprioritaskan penggantian hardware yang rusak sebelum melanjutkan. Intervensi yang diperlukan ini dapat memperpanjang durasi upgrade secara keseluruhan.

Konfigurasi yang dapat memengaruhi proses pemeliharaan

VMware Engine memanfaatkan Mode Pemeliharaan VMware untuk melakukan upgrade, update, dan pemeliharaan node. Hal ini membantu memastikan kelanjutan operasi workload Private Cloud Anda. Namun, konfigurasi berikut mungkin memerlukan langkah tambahan sebelum node dapat memasuki Mode Pemeliharaan:

  • Aturan DRS: Aturan WAJIB yang memaksa VM tetap berada di node tertentu.
  • Berbagi bus SCSI: VM yang dikonfigurasi untuk berbagi bus SCSI.
  • Pemasangan CD-ROM: VM dengan CD-ROM terpasang, terutama jika CD-ROM tersebut tidak dapat dipindahkan ke node lain menggunakan vMotion.
  • Koneksi port serial: VM yang menggunakan koneksi port serial yang mencegahnya dipindahkan ke node lain menggunakan vMotion.
  • Pemetaan perangkat mentah (RDM): VM yang mengakses perangkat penyimpanan fisik secara langsung.

Jika tindakan diperlukan

Jika salah satu konfigurasi ini ada di node, Cloud Customer Care akan memberi tahu Anda setidaknya 24 jam sebelum melakukan langkah-langkah perbaikan yang diperlukan untuk menjaga ketersediaan Private Cloud Anda. Dalam beberapa kasus, langkah-langkah seperti mematikan VM dan memindahkannya dengan vMotion, lalu menyalakannya, atau penghapusan CD-ROM, dapat mengganggu workload Anda untuk sementara.

Langkah berikutnya