Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Konfigurasi yang direkomendasikan

Dokumen ini memberikan rekomendasi untuk akselerator, jenis penggunaan, dan alat deployment yang paling cocok untuk berbagai workload kecerdasan buatan (AI), machine learning (ML), dan komputasi berperforma tinggi (HPC). Gunakan dokumen ini untuk membantu Anda mengidentifikasi deployment terbaik untuk workload Anda.

Untuk mengetahui informasi dan rekomendasi tentang pilar infrastruktur untuk workload AI, ML, dan HPC, lihat dokumen berikut:

Ringkasan beban kerja

Arsitektur AI Hypercomputer mendukung kasus penggunaan berikut:

Beban kerja	Deskripsi	Rekomendasi
Model dasar pra-pelatihan	Hal ini melibatkan pembuatan model bahasa menggunakan set data yang besar. Hasil pelatihan awal model dasar adalah model baru yang bagus dalam melakukan tugas umum. Model dikategorikan berdasarkan ukurannya sebagai berikut: *Model termutakhir: ini adalah model ML yang mencakup ratusan miliar hingga triliunan parameter atau lebih. Model ini mencakup model bahasa besar (LLM) seperti Gemini. Model besar*: model ini memiliki puluhan hingga ratusan miliar parameter atau lebih.	Lihat rekomendasi untuk model pra-pelatihan
Penyesuaian (fine-tuning)	Proses ini melibatkan pengambilan model terlatih dan penyesuaiannya untuk melakukan tugas tertentu dengan menggunakan set data khusus atau teknik lainnya. Penyesuaian umumnya dilakukan pada model besar.	Lihat rekomendasi untuk menjalankan fine-tuning model
Inferensi atau serving	Proses ini melibatkan pengambilan model terlatih atau yang telah di-fine-tune dan menyediakannya agar dapat digunakan oleh pengguna atau aplikasi. Workload inferensi dikategorikan berdasarkan ukuran model sebagai berikut: *Inferensi model dasar multi-host: melakukan inferensi dengan model ML terlatih yang mencakup ratusan miliar hingga triliunan parameter atau lebih. Untuk beban kerja inferensi ini, beban komputasi dibagi di beberapa mesin host. Inferensi model dasar satu host: melakukan inferensi dengan model ML terlatih yang mencakup puluhan hingga ratusan miliar parameter. Untuk beban kerja inferensi ini, beban komputasi dibatasi pada satu mesin host. Inferensi model besar*: melakukan inferensi dengan model ML terlatih atau yang di-fine-tune yang mencakup puluhan hingga ratusan miliar parameter.	Lihat rekomendasi untuk inferensi
Machine learning model berukuran kecil hingga sedang	Hal ini melibatkan pelatihan dan penyajian model ML yang lebih kecil dalam ukuran dan kompleksitas, biasanya untuk tugas yang lebih terspesialisasi.	Lihat rekomendasi untuk machine learning model berukuran kecil hingga sedang
HPC	Praktik ini adalah penggabungan resource komputasi untuk mendapatkan performa yang lebih besar daripada performa dari satu workstation, server, atau komputer. HPC digunakan untuk menyelesaikan masalah dalam riset akademis, sains, desain, simulasi, dan business intelligence.	Lihat rekomendasi untuk HPC

Rekomendasi untuk model pra-pelatihan

Prapelatihan model dasar melibatkan cluster akselerator besar, yang terus-menerus membaca data dalam jumlah besar, dan menyesuaikan bobot melalui proses maju dan mundur untuk mempelajari data. Tugas pelatihan ini berjalan selama berminggu-minggu, atau bahkan berbulan-bulan sekaligus.

Bagian berikut menguraikan akselerator dan jenis konsumsi yang direkomendasikan untuk digunakan saat melakukan pra-pelatihan model.

Akselerator yang direkomendasikan

Untuk melakukan pra-pelatihan model dasar di Google Cloud, sebaiknya gunakan jenis mesin yang dioptimalkan untuk akselerator A4X Max, A4, atau A3 dan gunakan orkestrator untuk men-deploy cluster. Untuk men-deploy cluster akselerator berskala besar ini, sebaiknya gunakan Cluster Director atau Cluster Toolkit. Untuk mengetahui informasi selengkapnya, lihat panduan deployment yang sesuai untuk cluster pilihan Anda dalam tabel berikut.

Beban kerja	Rekomendasi		Panduan deployment cluster
	Jenis mesin	Orchestrator
Pelatihan model termutakhir Pelatihan model besar	A4X Max A4X A4 A3 Ultra	GKE	Membuat cluster GKE yang dioptimalkan untuk AI dengan konfigurasi default
Pelatihan model termutakhir Pelatihan model besar	A4X Max A4X A4 A3 Ultra	Slurm	Membuat cluster Slurm terkelola sepenuhnya untuk workload AI Membuat cluster Slurm yang dikelola sendiri untuk beban kerja AI
Pelatihan model termutakhir Pelatihan model besar	A3 Mega	GKE	Memaksimalkan bandwidth jaringan GPU di cluster mode Standar
Pelatihan model termutakhir Pelatihan model besar	A3 Mega	Slurm	Membuat cluster yang dioptimalkan untuk AI berdasarkan template Men-deploy cluster Slurm A3 Mega untuk pelatihan ML
Pelatihan model besar	A3 Tinggi	GKE	Memaksimalkan bandwidth jaringan GPU di cluster mode Standar
Pelatihan model besar	A3 Tinggi	Slurm	Men-deploy cluster Slurm A3 High

Jenis konsumsi yang direkomendasikan

Untuk mendapatkan tingkat jaminan yang tinggi dalam memperoleh cluster akselerator yang besar, sebaiknya gunakan reservasi. Secara khusus, untuk meminimalkan biaya resource yang dicadangkan, sebaiknya minta reservasi ini untuk durasi yang cukup lama agar menerima diskon penggunaan yang di-commit. Untuk mengetahui informasi selengkapnya tentang jenis konsumsi, lihat Memilih opsi konsumsi.

Rekomendasi untuk melakukan fine-tuning model

Penyesuaian model dasar besar melibatkan cluster akselerator yang lebih kecil, membaca volume data sedang, dan menyesuaikan model untuk melakukan tugas tertentu. Tugas penyesuaian ini berjalan selama berhari-hari, atau bahkan berminggu-minggu.

Bagian berikut menguraikan akselerator dan jenis konsumsi yang direkomendasikan untuk digunakan saat menyetel model secara halus.

Akselerator yang direkomendasikan

Untuk melakukan fine-tuning model di Google Cloud, sebaiknya gunakan jenis mesin yang dioptimalkan untuk akselerator A4X Max, A4X, A4, atau A3 dan gunakan orchestrator untuk men-deploy cluster.

Untuk men-deploy cluster akselerator ini, sebaiknya Anda juga menggunakan Cluster Director atau Cluster Toolkit. Untuk mengetahui informasi selengkapnya, lihat panduan deployment cluster yang sesuai untuk jenis mesin pilihan Anda dalam tabel berikut.

Beban kerja	Rekomendasi		Panduan deployment cluster
	Jenis mesin	Orchestrator
Menyesuaikan model besar	A4X Max A4X A4	GKE	Membuat cluster GKE yang dioptimalkan untuk AI dengan konfigurasi default
Menyesuaikan model besar	A4X Max A4X A4	Slurm	Membuat cluster Slurm terkelola sepenuhnya untuk workload AI Membuat cluster Slurm yang dikelola sendiri untuk beban kerja AI
Menyesuaikan model besar	A3 Mega	GKE	Memaksimalkan bandwidth jaringan GPU di cluster mode Standar
Menyesuaikan model besar	A3 Mega	Slurm	Membuat cluster yang dioptimalkan untuk AI berdasarkan template Men-deploy cluster Slurm A3 Mega untuk pelatihan ML
Menyesuaikan model besar	A3 Tinggi	GKE	Memaksimalkan bandwidth jaringan GPU di cluster mode Standar
Menyesuaikan model besar	A3 Tinggi	Slurm	Men-deploy cluster Slurm A3 High

Jenis konsumsi yang direkomendasikan

Untuk workload penyetelan, sebaiknya gunakan pemesanan untuk masa mendatang dalam mode kalender untuk menyediakan resource. Untuk mengetahui informasi selengkapnya tentang opsi konsumsi, lihat Memilih opsi konsumsi.

Rekomendasi untuk inferensi

Bagian berikut menguraikan akselerator dan jenis penggunaan yang direkomendasikan untuk digunakan saat melakukan inferensi.

Akselerator yang direkomendasikan

Akselerator yang direkomendasikan untuk inferensi bergantung pada apakah Anda melakukan inferensi model besar atau inferensi frontier multi-host, atau inferensi frontier host tunggal.

Akselerator yang direkomendasikan (multi-host)

Untuk melakukan inferensi model besar atau inferensi model yang belum pernah ada sebelumnya di beberapa host Google Cloud, sebaiknya gunakan jenis mesin yang dioptimalkan untuk akselerator A4X Max, A4X, A4, atau A3 dan men-deploy mesin menggunakan orkestrator. Untuk men-deploy cluster akselerator ini, sebaiknya gunakan Cluster Director atau Cluster Toolkit. Untuk membantu Anda memulai penggunaan cluster ini, link ke panduan deployment cluster untuk setiap jenis mesin yang direkomendasikan disediakan.

Beban kerja	Rekomendasi		Panduan deployment cluster
	Jenis mesin	Orchestrator
Inferensi frontier multi-host	A4X Max A4X A4 A3 Ultra	GKE	Membuat cluster GKE yang dioptimalkan untuk AI dengan konfigurasi default
Inferensi frontier multi-host	A4X Max A4X A4 A3 Ultra	Slurm	Membuat cluster Slurm terkelola sepenuhnya untuk workload AI Membuat cluster Slurm yang dikelola sendiri untuk beban kerja AI
Inferensi frontier multi-host	A3 Mega	GKE	Memaksimalkan bandwidth jaringan GPU di cluster mode Standar
Inferensi frontier multi-host	A3 Mega	Slurm	Membuat cluster yang dioptimalkan untuk AI berdasarkan template Men-deploy cluster Slurm A3 Mega untuk pelatihan ML
Inferensi model besar	A3 Tinggi	GKE	Memaksimalkan bandwidth jaringan GPU di cluster mode Standar
Inferensi model besar	A3 Tinggi	Slurm	Men-deploy cluster Slurm A3 High

Akselerator yang direkomendasikan (host tunggal)

Tabel berikut menguraikan akselerator yang direkomendasikan untuk digunakan saat melakukan inferensi frontier single-host. Untuk membantu Anda memulai penggunaan VM ini, link ke panduan deployment VM untuk setiap jenis mesin yang direkomendasikan disediakan.

Beban kerja	Rekomendasi		Panduan deployment VM
	Jenis mesin	Orchestrator
Inferensi frontier host tunggal	A4 A3 Ultra	T/A	Membuat instance yang dioptimalkan untuk AI
Inferensi frontier host tunggal	A3 Tinggi	T/A	Membuat VM A3 dengan GPUDirect-TCPX diaktifkan

Jenis konsumsi yang direkomendasikan

Untuk inferensi, sebaiknya gunakan reservasi yang berjalan lama atau pemesanan untuk masa mendatang dalam mode kalender. Untuk mengetahui informasi selengkapnya tentang opsi pemakaian, lihat Memilih opsi pemakaian.

Rekomendasi untuk machine learning model berukuran kecil hingga sedang

Untuk beban kerja machine learning yang melibatkan model berukuran kecil hingga sedang, mencapai keseimbangan optimal antara harga dan performa adalah pertimbangan utama.

Akselerator yang direkomendasikan

Tabel berikut menguraikan akselerator yang direkomendasikan untuk digunakan pada workload ML model berukuran kecil hingga sedang.

Beban kerja	Rekomendasi		Panduan deployment VM
	Jenis mesin	Orchestrator
Machine learning model berukuran kecil hingga sedang	G4 G2	T/A	Membuat instance G2 atau G4

Rekomendasi untuk HPC

Untuk workload HPC, seri mesin yang dioptimalkan untuk akselerator atau seri mesin yang dioptimalkan untuk komputasi akan berfungsi dengan baik. Jika menggunakan seri mesin yang dioptimalkan untuk akselerator, kecocokan terbaik bergantung pada jumlah komputasi yang harus di-offload ke GPU. Untuk mendapatkan daftar rekomendasi terperinci untuk workload HPC, lihat Praktik terbaik untuk menjalankan workload HPC.

Ringkasan rekomendasi

Berikut adalah ringkasan rekomendasi akselerator dan jenis konsumsi yang kami rekomendasikan untuk berbagai workload.

Resource	Rekomendasi
Pra-pelatihan model
Kelompok mesin	Gunakan salah satu jenis mesin yang dioptimalkan akselerator berikut: A4X Max, A4X, A4, A3 Ultra, A3 Mega, atau A3 High
Jenis konsumsi	Menggunakan reservasi
Penyesuaian model
Kelompok mesin	Gunakan jenis mesin yang dioptimalkan untuk akselerator A4X Max, A4X, A4, atau A3
Jenis konsumsi	Menggunakan reservasi
Inferensi
Kelompok mesin	Gunakan salah satu jenis mesin yang dioptimalkan akselerator berikut: A4X Max, A4X, A4, A3 Ultra, A3 Mega, atau A3 High
Jenis konsumsi	Menggunakan reservasi
HPC
Lihat bagian ringkasan praktik terbaik untuk menjalankan workload HPC

Konfigurasi yang direkomendasikan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Ringkasan beban kerja

Rekomendasi untuk model pra-pelatihan

Akselerator yang direkomendasikan

Jenis konsumsi yang direkomendasikan

Rekomendasi untuk melakukan fine-tuning model

Akselerator yang direkomendasikan

Jenis konsumsi yang direkomendasikan

Rekomendasi untuk inferensi

Akselerator yang direkomendasikan

Akselerator yang direkomendasikan (multi-host)

Akselerator yang direkomendasikan (host tunggal)

Jenis konsumsi yang direkomendasikan

Rekomendasi untuk machine learning model berukuran kecil hingga sedang

Akselerator yang direkomendasikan

Rekomendasi untuk HPC

Ringkasan rekomendasi

Konfigurasi yang direkomendasikan