Ringkasan AI Hypercomputer

AI Hypercomputer adalah sistem superkomputer yang dioptimalkan untuk mendukung workload kecerdasan buatan (AI) dan machine learning (ML) Anda. Ini adalah sistem terintegrasi yang terdiri dari hardware yang dioptimalkan untuk performa, software terbuka, framework ML, dan model konsumsi yang fleksibel.

Sistem AI Hypercomputer menggabungkan praktik terbaik dan desain tingkat sistem untuk meningkatkan efisiensi dan produktivitas di seluruh pra-pelatihan, penyesuaian, dan inferensi AI.

Arsitektur sistem

AI Hypercomputer terdiri dari lapisan berikut:

  • Infrastruktur yang dioptimalkan untuk performa: berisi akselerator, jaringan, dan resource penyimpanan yang menyediakan kemampuan komputasi untuk mendukung workload Anda.
  • Software terbuka: versi yang dioptimalkan dari framework machine learning populer seperti TensorFlow, PyTorch, dan JAX. Google menyediakan sistem operasi (OS) yang dikonfigurasi dengan software penting untuk memanfaatkan resource komputasi yang disediakan di cluster Anda. Untuk men-deploy dan mengelola sejumlah besar akselerator sebagai satu unit, Anda dapat menggunakan Cluster Director, Google Kubernetes Engine, atau Slurm. Atau, Anda dapat men-deploy resource secara manual menggunakan Compute Engine API.
  • Opsi konsumsi: beberapa opsi untuk menyediakan cluster yang mengoptimalkan biaya dan ketersediaan hardware berdasarkan kebutuhan spesifik dan pola beban kerja Anda.

Manfaat

AI Hypercomputer memiliki manfaat berikut:

  • Performa dan goodput tinggi: Metrik Goodput mengukur Produktivitas ML. AI Hypercomputer mengoptimalkan lapisan penjadwalan, runtime, dan orkestrasi.
  • Mulai dan jalankan dengan cepat: AI Hypercomputer menyediakan alat, seperti Cluster Director dan cetak biru, yang memungkinkan Anda men-deploy sejumlah besar resource yang dioptimalkan untuk akselerator secara andal dan berulang kali, yang dikonfigurasi untuk mendukung workload AI dan ML yang paling berat.

Kasus penggunaan

AI Hypercomputer dirancang untuk memenuhi kebutuhan kasus penggunaan berikut:


Kasus penggunaan

Contoh workload

Workload AI dan ML berskala besar

  • Pelatihan terdistribusi AI generatif
  • Inferensi AI generatif
  • Deteksi penipuan
  • Model rekomendasi

Komputasi berperforma tinggi (HPC)

  • Simulasi kompleks
  • Penemuan obat, pelipatan protein, dan analisis genomik
  • Analisis risiko dan perdagangan kuantitatif

Apa langkah selanjutnya?