Tentang GKE Hypercluster

Standar

Banyak pelanggan GKE menjalankan workload AI/ML berskala besar atau memiliki kekayaan intelektual (IP) sensitif seperti bobot model eksklusif. Dokumen ini menjelaskan arsitektur infrastruktur yang menjalankan container pada instance jarak jauh yang dapat berjalan di beberapa region dan dikelola oleh node di cluster Anda. Infrastruktur tertaut ini, termasuk berbagai image dan fitur sistem operasi (OS), diberi nama GKE Hypercluster.

GKE Hypercluster ditujukan untuk pelanggan yang menginginkan keamanan dan skalabilitas di luar batas GKE atau AI Hypercomputer, dan bersedia menerima peningkatan gesekan operasional untuk mencapai sasaran tersebut.

Kapan harus menggunakan GKE Hypercluster

Secara default, cluster GKE dirancang untuk memenuhi persyaratan sebagian besar workload AI produksi, termasuk workload yang memiliki persyaratan keamanan dan skalabilitas khusus. Misalnya, GKE mendukung kasus penggunaan seperti berikut:

Menjalankan GPU di Confidential Google Kubernetes Engine Nodes dan mengakses vTPM atau modul Confidential Computing berbasis hardware dari workload Anda.
Menggunakan Workload Identity Federation for GKE untuk membatasi akses ke data terenkripsi ke identitas resmi tertentu.
Men-deploy node TPU dan GPU berdasarkan kapasitas yang tersedia menggunakan ComputeClasses dan pembuatan otomatis node pool.
Mengontrol dan mengamati akses apa pun oleh staf Google menggunakan Persetujuan Akses, Transparansi Akses, dan otoritas bidang kontrol GKE.

Infrastruktur tertaut di GKE Hypercluster dirancang untuk kasus penggunaan keamanan dan skalabilitas tertentu yang memerlukan kemampuan di luar batas arsitektur GKE standar yang ada. Menurut desainnya, kemampuan observasi, pemecahan masalah, dan fitur GKE tertentu tidak tersedia untuk infrastruktur tertaut. Infrastruktur ini mengubah arsitektur cluster GKE standar untuk memenuhi kasus penggunaan khusus berikut:

Melindungi model dan kueri dari ancaman orang dalam: mencegah akses ke bobot model eksklusif atau kueri dan respons inferensi sensitif dari administrator platform Anda sendiri dan staf Google. Aset AI hanya didekripsi di lingkungan yang disahkan dan dapat diverifikasi.
Menjalankan workload AI di seluruh region: men-deploy workload pada skala yang berada di luar batas penskalaan node yang didukung. Membuat dan menggunakan infrastruktur akselerator di region mana pun yang memiliki kapasitas yang tersedia, termasuk di lokasi di luar region atau zona cluster.

Cara kerjanya

Seperti yang dijelaskan dalam Arsitektur cluster GKE, cluster mode Standar memiliki bidang kontrol regional atau zona yang menayangkan Kubernetes API dan mengelola semua node dan node pool di cluster. Semua node dalam cluster menggunakan jaringan VPC tertentu, yang mungkin juga digunakan oleh resource lainnya. Google Cloud Setiap node GKE menjalankan berbagai komponen sistem seperti agen node kubelet, agen logging dan metrik, serta komponen Kubernetes dan GKE lainnya.

Sebaliknya, GKE Hypercluster menggunakan instance bernama runner tertaut yang tidak terdaftar sebagai objek Node di server Kubernetes API. Instance ini memiliki properti berikut:

Tidak ada agen Kubernetes dan kumpulan komponen GKE minimal.
Image OS khusus berdasarkan kasus penggunaan. Tidak ada image node GKE.
Instance menggunakan jaringan VPC khusus yang terpisah.

Runner tertaut dikelola oleh node kontrol di cluster yang menautkan runner dengan cluster. Node kontrol menjalankan komponen sistem seperti proses kubelet. Satu node kontrol dapat ditautkan dengan beberapa runner. Runner tertaut ini dirancang untuk menjalankan workload dalam skala yang sangat besar, seperti Tugas pelatihan yang memerlukan lebih banyak daya daripada yang dapat disediakan oleh pusat data di region cluster Anda.

Selama penyiapan infrastruktur, Anda membuat runner dengan konfigurasi tertentu berdasarkan kasus penggunaan Anda, lalu menautkan instance ke node kontrol khusus di cluster Anda. Kubernetes API hanya perlu mengelola node kontrol, karena instance runner tertaut tidak memiliki kubelet dan tidak menghasilkan traffic server API. Saat membuat instance runner tertaut, Anda dapat mengonfigurasi instance dengan salah satu cara berikut:

Konfigurasi default: secara default, instance tertaut adalah VM Compute Engine yang menjalankan image Container-Optimized OS. Administrator platform dan staf darurat seperti SRE dapat mengakses instance menggunakan SSH. Instance ini berfungsi dengan baik jika Anda ingin mempertahankan akses administrator ke infrastruktur.
Konfigurasi tertutup: beberapa workload AI memproses data sensitif, seperti bobot model eksklusif dan kueri terenkripsi. Dalam situasi saat Anda perlu melindungi aset AI dari semua akses, termasuk dari staf Google dan administrator Anda sendiri, Anda dapat mengonfigurasi instance runner tertaut dalam mode tertutup. Instance tertutup ini memiliki properti berikut:
- Menggunakan image OS minimal.
- Menggunakan Titanium Intelligence enclave untuk TPU dan NVIDIA Confidential Computing untuk GPU.
- Melakukan pengesahan firmware dan tingkat workload.
- Memvalidasi tanda tangan image container.
- Mencegah semua akses administratif ke instance dan container.

Terlepas dari konfigurasi yang Anda gunakan, instance tidak menyertakan banyak komponen dan fitur yang disertakan dalam node GKE, seperti parameter runtime TPU khusus GKE atau agen logging dan pemantauan GKE.

Tentang konfigurasi default

Secara default, instance yang Anda buat untuk GKE Hypercluster dirancang untuk menjalankan workload produksi sekaligus menyediakan mekanisme yang serupa dengan node GKE standar untuk tujuan pemecahan masalah dan respons darurat. Instance berjalan pada jenis mesin Compute Engine dan menggunakan image Container-Optimized OS. Selama insiden seperti gangguan atau error, administrator Anda dapat langsung mengakses instance untuk memecahkan masalah. Tidak seperti node Kubernetes, instance tidak menjalankan banyak komponen sistem yang mengaktifkan fitur Kubernetes dan GKE, yang menghasilkan lebih banyak resource yang dapat dialokasikan di setiap instance.

Anda dapat membuat instance di region mana pun, lalu menautkan instance tersebut ke node kontrol di cluster Anda. Google Cloud Node kontrol menjalankan banyak fungsi bidang kontrol Kubernetes, mengelola siklus proses workload yang di-deploy.

Tentang konfigurasi tertutup

Jika kasus penggunaan utama Anda adalah melindungi aset dari semua akses, Anda dapat mengonfigurasi runner tertaut untuk menggunakan konfigurasi tertutup, yang menghasilkan instance yang memiliki properti keamanan berikut:

Setiap instance adalah Trusted Execution Environment (TEE) yang didasarkan pada teknologi tertentu:
- TPU menggunakan Titanium Intelligence enclave, yang merupakan bagian dari platform Private AI Compute.
- GPU menggunakan NVIDIA Confidential Computing untuk melindungi data saat digunakan.
Instance menjalankan image OS minimal, berdasarkan Container-Optimized OS, yang menonaktifkan akses SSH, mencegah akses shell container, dan menjalankan agen pengesahan.
Anda menentukan kebijakan yang menentukan workload mana yang dapat berjalan di instance. Misalnya, Anda dapat mewajibkan workload untuk menggunakan ringkasan image container yang ditandatangani atau memiliki spesifikasi Pod tertentu.
Agen pengesahan mengirimkan pengukuran firmware dan workload ke Google Cloud Attestation dan menampilkan token hasil klaim pengesahan yang dapat diverifikasi.

Instance yang dihasilkan menyediakan lingkungan yang dibatasi dan divalidasi yang hanya dapat menjalankan kode yang disetujui dan data sensitif diproses di enclave aman berbasis hardware. Informasi pengesahan yang ditampilkan oleh instance memverifikasi bahwa workload menjalankan kode yang disetujui dan di-deploy pada instance yang benar.

Anda dapat menggunakan instance tertutup ini untuk melindungi model, kueri, dan respons terenkripsi dengan cara berikut:

Bobot model:
1. Mengenkripsi bobot model menggunakan kunci Cloud HSM di Cloud KMS.
2. Menyimpan bobot model terenkripsi di Cloud Storage.
3. Memberikan akses baca ke bucket hanya untuk workload yang disahkan.
4. Memberikan akses kunci dekripsi hanya untuk workload yang disahkan.
Kueri dan respons:
1. Mengenkripsi kueri dan respons menggunakan kunci Cloud HSM di Cloud KMS.
2. Memberikan akses dekripsi hanya untuk workload yang disahkan.
3. Memerlukan bukti pengesahan saat mengirim data terenkripsi antar-workload.

Konfigurasi tertutup adalah lapisan keamanan opsional untuk instance runner tertaut Anda. Mirip dengan konfigurasi default, Anda dapat membuat instance tertutup di region dan zona mana pun. Namun, properti keamanan instance tertutup berarti administrator dan staf Google tidak dapat mengakses instance host untuk pemecahan masalah.

Kelayakan

GKE Hypercluster dirancang untuk kasus penggunaan AI/ML tertentu yang tidak dapat dipenuhi oleh arsitektur dan fitur cluster GKE standar. Pelanggan yang menggunakan GKE Hypercluster memiliki persyaratan keamanan dan skalabilitas yang tidak biasa. GKE Hypercluster hanya tersedia untuk pelanggan GKE yang memenuhi syarat. Untuk memeriksa apakah Anda memenuhi syarat dan meminta akses, hubungi tim akun khusus Anda.