AI Hypercomputer adalah sistem superkomputer yang dioptimalkan untuk mendukung workload kecerdasan buatan (AI) dan machine learning (ML) Anda. Ini adalah sistem terintegrasi yang terdiri dari hardware yang dioptimalkan untuk performa, software terbuka, framework ML, dan model konsumsi yang fleksibel.
Sistem AI Hypercomputer menggabungkan praktik terbaik dan desain tingkat sistem untuk meningkatkan efisiensi dan produktivitas di seluruh pra-pelatihan, penyesuaian, dan inferensi AI.
Arsitektur sistem
AI Hypercomputer terdiri dari lapisan berikut:
- Infrastruktur yang dioptimalkan untuk performa: berisi akselerator, resource jaringan, dan penyimpanan yang menyediakan kemampuan komputasi untuk mendukung beban kerja Anda.
- Software terbuka: versi yang dioptimalkan dari framework machine learning populer seperti TensorFlow, PyTorch, dan JAX. Google menyediakan sistem operasi (OS) yang dikonfigurasi dengan software penting untuk memanfaatkan resource komputasi yang disediakan di kluster Anda. Untuk men-deploy dan mengelola sejumlah besar akselerator sebagai satu unit, Anda dapat menggunakan Cluster Director, Google Kubernetes Engine, atau Slurm. Atau, Anda dapat men-deploy resource secara manual menggunakan Compute Engine API.
- Opsi pemakaian: beberapa opsi untuk menyediakan cluster yang mengoptimalkan biaya dan ketersediaan hardware berdasarkan kebutuhan spesifik dan pola beban kerja Anda.
Manfaat
AI Hypercomputer memiliki manfaat berikut:
- Performa tinggi dan goodput: Goodput mengukur produktivitas ML. AI Hypercomputer mengoptimalkan lapisan penjadwalan, runtime, dan orkestrasi.
- Mulai dan jalankan dengan cepat: AI Hypercomputer menyediakan alat, seperti Cluster Director dan cetak biru, yang memungkinkan Anda men-deploy sejumlah besar resource yang dioptimalkan untuk akselerator secara andal dan berulang kali yang dikonfigurasi untuk mendukung workload AI dan ML yang paling berat.
- Lapisan penyimpanan yang dioptimalkan untuk performa: gunakan layanan penyimpanan berperforma tinggi, seperti Cloud Storage dan Google Cloud Managed Lustre, untuk menyediakan penyimpanan yang skalabel, ber-throughput tinggi, dan berlatensi rendah untuk workload AI dan ML.
Kasus penggunaan
AI Hypercomputer dirancang untuk memenuhi kebutuhan kasus penggunaan berikut:
Kasus penggunaan |
Contoh workload |
|---|---|
Workload AI dan ML berskala besar |
|
Komputasi berperforma tinggi (HPC) |
|
Langkah berikutnya
- Pelajari infrastruktur yang dioptimalkan untuk performa dari AI Hypercomputer:
- Tinjau model konsumsi.
- Pelajari pengelolaan cluster.