AI Hypercomputer adalah sistem superkomputer yang dioptimalkan untuk mendukung workload kecerdasan buatan (AI) dan machine learning (ML) Anda. Ini adalah sistem terintegrasi yang terdiri dari hardware yang dioptimalkan untuk performa, software terbuka, framework ML, dan model konsumsi yang fleksibel.
Sistem AI Hypercomputer menggabungkan praktik terbaik dan desain tingkat sistem untuk meningkatkan efisiensi dan produktivitas di seluruh pra-pelatihan, penyesuaian, dan inferensi AI.
Arsitektur sistem
AI Hypercomputer terdiri dari lapisan berikut:
- Infrastruktur yang dioptimalkan untuk performa: berisi akselerator, jaringan, dan resource penyimpanan yang menyediakan kemampuan komputasi untuk mendukung workload Anda.
- Software terbuka: versi yang dioptimalkan dari framework machine learning populer seperti TensorFlow, PyTorch, dan JAX. Google menyediakan sistem operasi (OS) yang dikonfigurasi dengan software penting untuk memanfaatkan resource komputasi yang disediakan di cluster Anda. Untuk men-deploy dan mengelola sejumlah besar akselerator sebagai satu unit, Anda dapat menggunakan Cluster Director, Google Kubernetes Engine, atau Slurm. Atau, Anda dapat men-deploy resource secara manual menggunakan Compute Engine API.
- Opsi konsumsi: beberapa opsi untuk menyediakan cluster yang mengoptimalkan biaya dan ketersediaan hardware berdasarkan kebutuhan spesifik dan pola beban kerja Anda.
Manfaat
AI Hypercomputer memiliki manfaat berikut:
- Performa dan goodput tinggi: Metrik Goodput mengukur Produktivitas ML. AI Hypercomputer mengoptimalkan lapisan penjadwalan, runtime, dan orkestrasi.
- Mulai dan jalankan dengan cepat: AI Hypercomputer menyediakan alat, seperti Cluster Director dan cetak biru, yang memungkinkan Anda men-deploy sejumlah besar resource yang dioptimalkan untuk akselerator secara andal dan berulang kali, yang dikonfigurasi untuk mendukung workload AI dan ML yang paling berat.
Kasus penggunaan
AI Hypercomputer dirancang untuk memenuhi kebutuhan kasus penggunaan berikut:
Kasus penggunaan |
Contoh workload |
|---|---|
Workload AI dan ML berskala besar |
|
Komputasi berperforma tinggi (HPC) |
|
Apa langkah selanjutnya?
- Tinjau infrastruktur yang dioptimalkan untuk performa.
- Tinjau Ringkasan jaringan GPU.
- Tinjau model konsumsi.
- Pelajari pengelolaan cluster.