Dokumen ini memberikan rekomendasi akselerator, jenis konsumsi, layanan penyimpanan, dan alat deployment yang paling cocok untuk berbagai workload kecerdasan buatan (AI), machine learning (ML), dan komputasi berperforma tinggi (HPC). Gunakan dokumen ini untuk membantu Anda mengidentifikasi deployment terbaik untuk workload Anda.
Ringkasan workload
Arsitektur AI Hypercomputer mendukung kasus penggunaan berikut:
| Beban kerja | Deskripsi | Rekomendasi |
|---|---|---|
| Melakukan pra-pelatihan model dasar | Hal ini melibatkan pembuatan model bahasa menggunakan set data yang besar. Hasil
pelatihan awal model dasar adalah model baru yang bagus
dalam melakukan tugas umum. Model dikategorikan berdasarkan ukurannya sebagai berikut:
|
Lihat rekomendasi untuk model pra-pelatihan |
| Penyesuaian (fine-tuning) | Proses ini melibatkan pengambilan model terlatih dan penyesuaiannya untuk melakukan tugas tertentu dengan menggunakan set data khusus atau teknik lainnya. Penyesuaian umumnya dilakukan pada model besar. | Lihat rekomendasi untuk menjalankan fine-tuning model |
| Inferensi atau penayangan | Proses ini melibatkan pengambilan model yang telah dilatih atau di-fine-tune dan membuatnya
dapat digunakan oleh pengguna atau aplikasi. Workload inferensi dikategorikan berdasarkan ukuran model sebagai berikut:
|
Lihat rekomendasi untuk inferensi |
| Machine learning model berukuran kecil hingga sedang | Hal ini melibatkan pelatihan dan penyajian model ML yang lebih kecil dalam ukuran dan kompleksitas, biasanya untuk tugas yang lebih terspesialisasi. | Lihat rekomendasi untuk machine learning model berukuran kecil hingga sedang |
| HPC | Ini adalah praktik penggabungan resource komputasi untuk mendapatkan performa yang lebih besar daripada performa dari satu workstation, server, atau komputer. HPC digunakan untuk menyelesaikan masalah dalam riset akademis, sains, desain, simulasi, dan business intelligence. | Lihat rekomendasi untuk HPC |
Rekomendasi untuk model pra-pelatihan
Prapelatihan model dasar melibatkan cluster akselerator besar, yang terus-menerus membaca data dalam jumlah besar, dan menyesuaikan bobot melalui penerusan dan penerusan terbalik untuk mempelajari data. Tugas pelatihan ini berjalan selama berminggu-minggu, atau bahkan berbulan-bulan dalam satu waktu.
Bagian berikut menguraikan akselerator, jenis penggunaan yang direkomendasikan, dan layanan penyimpanan yang akan digunakan saat melakukan pra-pelatihan model.
Akselerator yang direkomendasikan
Untuk melakukan pra-pelatihan model dasar di Google Cloud, sebaiknya gunakan mesin yang dioptimalkan untuk akselerator A4X, A4, atau A3 dan gunakan orkestrator untuk men-deploy mesin ini. Untuk men-deploy cluster besar akselerator ini, sebaiknya gunakan Cluster Director atau Cluster Toolkit. Untuk mengetahui informasi selengkapnya, lihat panduan deployment yang sesuai untuk cluster pilihan Anda dalam tabel berikut.
| Beban kerja | Rekomendasi | Panduan deployment cluster | |
|---|---|---|---|
| Jenis mesin | Orchestrator | ||
|
|
GKE | Membuat cluster GKE yang dioptimalkan untuk AI dengan konfigurasi default |
| Slurm | |||
|
A3 Mega | GKE | Memaksimalkan bandwidth jaringan GPU di cluster mode Standar |
| Slurm | |||
|
A3 Tinggi | GKE | Memaksimalkan bandwidth jaringan GPU di cluster mode Standar |
| Slurm | Men-deploy cluster Slurm A3 High | ||
Jenis konsumsi yang direkomendasikan
Untuk mendapatkan jaminan tingkat tinggi dalam memperoleh cluster besar akselerator dengan biaya minimum, sebaiknya gunakan reservasi dan minta reservasi ini untuk jangka waktu yang lama. Untuk mengetahui informasi selengkapnya tentang jenis pemakaian, lihat Memilih opsi pemakaian.
Layanan penyimpanan yang direkomendasikan
Untuk pra-pelatihan, data pelatihan harus siap secara terus-menerus dan cepat. Kami juga merekomendasikan pembuatan titik pemeriksaan yang sering dan cepat untuk model yang sedang dilatih. Untuk sebagian besar kebutuhan ini, sebaiknya gunakan Google Cloud Managed Lustre. Sebagai alternatif, Anda dapat menggunakan Cloud Storage dengan Cloud Storage FUSE dan Anywhere Cache diaktifkan. Untuk mengetahui informasi selengkapnya tentang opsi penyimpanan, lihat Layanan penyimpanan.
Rekomendasi untuk model fine-tuning
Fine-tuning model dasar besar melibatkan cluster akselerator yang lebih kecil, membaca volume data sedang, dan menyesuaikan model untuk melakukan tugas tertentu. Tugas penyesuaian ini berjalan selama berhari-hari, atau bahkan berminggu-minggu.
Bagian berikut menguraikan akselerator, jenis penggunaan yang direkomendasikan, dan layanan penyimpanan yang akan digunakan saat melakukan penyesuaian model.
Akselerator yang direkomendasikan
Untuk menyetel model secara halus di Google Cloud, sebaiknya gunakan mesin yang dioptimalkan untuk akselerator A4X, A4, atau A3 dan gunakan orkestrator untuk men-deploy mesin ini.
Untuk men-deploy cluster akselerator ini, sebaiknya Anda juga menggunakan Cluster Director atau Cluster Toolkit. Untuk mengetahui informasi selengkapnya, lihat panduan deployment cluster yang sesuai untuk jenis mesin pilihan Anda dalam tabel berikut.
| Beban kerja | Rekomendasi | Panduan deployment cluster | |
|---|---|---|---|
| Jenis mesin | Orchestrator | ||
| Menyesuaikan model besar |
|
GKE | Membuat cluster GKE yang dioptimalkan untuk AI dengan konfigurasi default |
| Slurm | |||
| Menyesuaikan model besar | A3 Mega | GKE | Memaksimalkan bandwidth jaringan GPU di cluster mode Standar |
| Slurm | |||
| Menyesuaikan model besar | A3 Tinggi | GKE | Memaksimalkan bandwidth jaringan GPU di cluster mode Standar |
| Slurm | Men-deploy cluster Slurm A3 High | ||
Jenis konsumsi yang direkomendasikan
Untuk workload penyesuaian, sebaiknya gunakan reservasi mendatang dalam mode kalender untuk menyediakan resource. Untuk mengetahui informasi selengkapnya tentang opsi pemakaian, lihat Memilih opsi pemakaian.
Layanan penyimpanan yang direkomendasikan
Untuk model penyesuaian, jumlah data yang diperlukan bisa sangat besar, terutama dalam hal kecepatan baca untuk performa penyesuaian. Sebaiknya lakukan pembuatan titik pemeriksaan yang sering dan cepat pada model yang sedang di-fine-tune. Serupa dengan pra-pelatihan, untuk sebagian besar kasus penggunaan, sebaiknya gunakan Google Cloud Managed Lustre. Atau, Anda dapat menggunakan Cloud Storage dengan Cloud Storage FUSE dan mengaktifkan Anywhere Cache. Untuk mengetahui informasi selengkapnya tentang opsi penyimpanan, lihat Layanan penyimpanan.
Rekomendasi untuk inferensi
Bagian berikut menguraikan akselerator, jenis konsumsi yang direkomendasikan, dan layanan penyimpanan yang akan digunakan saat melakukan inferensi.
Akselerator yang direkomendasikan
Akselerator yang direkomendasikan untuk inferensi bergantung pada apakah Anda melakukan inferensi model besar atau frontier multi-host, atau inferensi frontier host tunggal.
Akselerator yang direkomendasikan (multi-host)
Untuk melakukan inferensi model besar atau frontier multi-host di Google Cloud, sebaiknya Anda menggunakan mesin yang dioptimalkan untuk akselerator A4X, A4, atau A3 dan men-deploy mesin ini menggunakan pengelola. Untuk men-deploy cluster akselerator ini, sebaiknya Anda juga menggunakan Cluster Director atau Cluster Toolkit. Untuk membantu Anda memulai dengan cluster ini, link ke panduan deployment cluster untuk setiap jenis mesin yang direkomendasikan disediakan.
| Beban kerja | Rekomendasi | Panduan deployment cluster | |
|---|---|---|---|
| Jenis mesin | Orchestrator | ||
| Inferensi frontier multi-host |
|
GKE | Membuat cluster GKE yang dioptimalkan untuk AI dengan konfigurasi default |
| Slurm | |||
| Inferensi frontier multi-host | A3 Mega | GKE | Memaksimalkan bandwidth jaringan GPU di cluster mode Standar |
| Slurm | |||
| Inferensi model besar | A3 Tinggi | GKE | Memaksimalkan bandwidth jaringan GPU di cluster mode Standar |
| Slurm | Men-deploy cluster Slurm A3 High | ||
Akselerator yang direkomendasikan (host tunggal)
Tabel berikut menguraikan akselerator yang direkomendasikan untuk digunakan saat melakukan inferensi frontier host tunggal. Untuk membantu Anda memulai VM ini, link ke panduan deployment VM untuk setiap jenis mesin yang direkomendasikan disediakan.
| Beban kerja | Rekomendasi | Panduan deployment VM | |
|---|---|---|---|
| Jenis mesin | Orchestrator | ||
| Inferensi frontier host tunggal |
|
T/A | Membuat instance yang dioptimalkan untuk AI |
| Inferensi frontier host tunggal | A3 Tinggi | T/A | Membuat VM A3 dengan GPUDirect-TCPX diaktifkan |
Jenis konsumsi yang direkomendasikan
Untuk inferensi, sebaiknya gunakan reservasi yang berjalan lama atau reservasi mendatang dalam mode kalender. Untuk mengetahui informasi selengkapnya tentang opsi pemakaian, lihat Memilih opsi pemakaian.
Layanan penyimpanan yang direkomendasikan
Untuk inferensi, pemuatan biner dan bobot inferensi dengan cepat di banyak server memerlukan pembacaan data yang cepat. Sebaiknya gunakan Cloud Storage dengan Cloud Storage FUSE dan Anywhere Cache diaktifkan untuk pemuatan model. Anywhere Cache menyediakan solusi caching data zonal yang mempercepat waktu pemuatan model dan juga mengurangi biaya egress jaringan. Jika dipasangkan dengan Cloud Storage FUSE, Anywhere Cache sangat berguna untuk memuat model di beberapa zona dan multi-region. Jika Anda menggunakan Google Cloud Managed Lustre untuk pelatihan, sebaiknya Anda juga menggunakan Google Cloud Managed Lustre untuk pemuatan model karena memungkinkan pembacaan data yang cepat dan merupakan solusi penyimpanan zonal yang persisten. Untuk mengetahui informasi selengkapnya tentang opsi penyimpanan, lihat Layanan penyimpanan.
Rekomendasi untuk machine learning model berukuran kecil hingga sedang
Untuk beban kerja machine learning yang melibatkan model berukuran kecil hingga sedang, pertimbangan utama adalah mencapai keseimbangan optimal antara harga dan performa.
Akselerator yang direkomendasikan
Tabel berikut menguraikan akselerator yang direkomendasikan untuk digunakan pada workload ML model berukuran kecil hingga sedang.
| Beban kerja | Rekomendasi | Panduan deployment VM | |
|---|---|---|---|
| Jenis mesin | Orchestrator | ||
| Machine learning model berukuran kecil hingga sedang |
|
T/A | Membuat instance G2 atau G4 |
Rekomendasi untuk HPC
Untuk workload HPC, semua seri mesin yang dioptimalkan akselerator atau seri mesin yang dioptimalkan untuk komputasi akan berfungsi dengan baik. Jika menggunakan seri mesin yang dioptimalkan akselerator, kecocokan terbaik bergantung pada jumlah komputasi yang harus dialihkan ke GPU. Untuk mendapatkan daftar rekomendasi mendetail bagi workload HPC, lihat Praktik terbaik untuk menjalankan workload HPC.
Ringkasan rekomendasi
Berikut adalah ringkasan rekomendasi akselerator, jenis konsumsi, dan layanan penyimpanan yang kami rekomendasikan untuk berbagai workload.
Resource |
Rekomendasi |
|---|---|
| Pelatihan awal model | |
| Kelompok mesin | Gunakan salah satu jenis mesin yang dioptimalkan untuk akselerator berikut: A4, A3 Ultra, A3 Mega, atau A3 High |
| Jenis konsumsi | Menggunakan reservasi |
| Penyimpanan | Gunakan Google Cloud layanan terkelola seperti Google Cloud Managed Lustre atau Cloud Storage FUSE |
| Penyesuaian model | |
| Kelompok mesin | Menggunakan jenis mesin yang dioptimalkan untuk akselerator A4X, A4, atau A3 |
| Jenis konsumsi | Menggunakan reservasi |
| Penyimpanan | Gunakan Google Cloud layanan terkelola seperti Google Cloud Managed Lustre atau Cloud Storage FUSE |
| Inferensi | |
| Kelompok mesin | Gunakan salah satu jenis mesin yang dioptimalkan untuk akselerator berikut: A4, A3 Ultra, A3 Mega, atau A3 High |
| Jenis konsumsi | Menggunakan reservasi |
| Penyimpanan | Gunakan Google Cloud layanan terkelola seperti Google Cloud Managed Lustre atau Cloud Storage FUSE |
| HPC | |
| Lihat bagian ringkasan praktik terbaik untuk menjalankan workload HPC | |