Saat Anda melakukan pelatihan kustom, kode pelatihan Anda akan berjalan pada satu atau beberapa instance mesin virtual (VM). Anda dapat mengonfigurasi jenis VM yang akan digunakan untuk pelatihan: menggunakan VM dengan resource komputasi yang lebih banyak dapat mempercepat pelatihan dan memungkinkan Anda bekerja dengan set data yang lebih besar, tetapi hal tersebut juga dapat menimbulkan biaya pelatihan yang lebih besar.
Dalam beberapa kasus, Anda juga dapat menggunakan GPU untuk mempercepat pelatihan. GPU dikenai biaya tambahan.
Anda juga dapat menyesuaikan jenis dan ukuran boot disk VM pelatihan Anda (opsional).
Dokumen ini menjelaskan berbagai resource komputasi yang dapat Anda gunakan untuk pelatihan kustom dan cara mengonfigurasinya.
Mengelola biaya dan ketersediaan
Untuk membantu mengelola biaya atau memastikan ketersediaan resource VM, Vertex AI menyediakan hal berikut:
Untuk memastikan resource VM tersedia saat tugas pelatihan Anda membutuhkannya, Anda dapat menggunakan reservasi Compute Engine. Pemesanan memberikan tingkat jaminan yang tinggi dalam mendapatkan kapasitas untuk resource Compute Engine. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi dengan pelatihan.
Untuk mengurangi biaya menjalankan tugas pelatihan, Anda dapat menggunakan Spot VM. Spot VM adalah instance virtual machine (VM) yang merupakan kapasitas berlebih Compute Engine. Spot VM memiliki diskon yang signifikan, tetapi Compute Engine dapat menghentikan atau menghapus Spot VM secara preemptif untuk memulihkan kapasitas kapan saja. Untuk mengetahui informasi selengkapnya, lihat artikel Menggunakan Spot VM dengan pelatihan.
Untuk tugas pelatihan kustom yang meminta resource GPU, Penjadwal Workload Dinamis memungkinkan Anda menjadwalkan tugas berdasarkan waktu ketersediaan resource GPU yang diminta. Untuk mengetahui informasi selengkapnya, lihat Menjadwalkan tugas pelatihan berdasarkan ketersediaan resource.
Tempat menentukan resource komputasi
Tentukan detail konfigurasi dalam WorkerPoolSpec. Bergantung pada cara Anda melakukan pelatihan kustom, masukkan WorkerPoolSpec ini di salah satu kolom API berikut:
Jika Anda membuat resource
CustomJob, tentukanWorkerPoolSpecdalamCustomJob.jobSpec.workerPoolSpecs.Jika menggunakan Google Cloud CLI, Anda dapat menggunakan flag
--worker-pool-specatau flag--configpada perintahgcloud ai custom-jobs createuntuk menentukan opsi pool worker.Pelajari lebih lanjut cara membuat
CustomJob.Jika Anda membuat resource
HyperparameterTuningJob, tentukanWorkerPoolSpecdiHyperparameterTuningJob.trialJobSpec.workerPoolSpecs.Jika menggunakan gcloud CLI, Anda dapat menggunakan flag
--configpada perintahgcloud ai hpt-tuning-jobs createuntuk menentukan opsi pool worker.Pelajari lebih lanjut cara membuat
HyperparameterTuningJob.Jika Anda membuat resource
TrainingPipelinetanpa penyesuaian hyperparameter, tentukanWorkerPoolSpecdalamTrainingPipeline.trainingTaskInputs.workerPoolSpecs.Pelajari lebih lanjut cara membuat
TrainingPipelinekustom.Jika Anda membuat
TrainingPipelinedengan penyesuaian hyperparameter, tentukanWorkerPoolSpecdalamTrainingPipeline.trainingTaskInputs.trialJobSpec.workerPoolSpecs.
Jika melakukan pelatihan terdistribusi, Anda dapat menggunakan setelan yang berbeda untuk setiap pool worker.
Jenis mesin
Di WorkerPoolSpec, Anda harus menentukan salah satu jenis mesin berikut di kolom machineSpec.machineType. Setiap replika dalam pool worker berjalan di VM terpisah yang memiliki jenis mesin tertentu.
a4x-highgpu-4g*a4-highgpu-8g*a3-ultragpu-8g*a3-megagpu-8g*a3-highgpu-1g*a3-highgpu-2g*a3-highgpu-4g*a3-highgpu-8g*a2-ultragpu-1g*a2-ultragpu-2g*a2-ultragpu-4g*a2-ultragpu-8g*a2-highgpu-1g*a2-highgpu-2g*a2-highgpu-4g*a2-highgpu-8g*a2-megagpu-16g*e2-standard-4e2-standard-8e2-standard-16e2-standard-32e2-highmem-2e2-highmem-4e2-highmem-8e2-highmem-16e2-highcpu-16e2-highcpu-32n2-standard-4n2-standard-8n2-standard-16n2-standard-32n2-standard-48n2-standard-64n2-standard-80n2-highmem-2n2-highmem-4n2-highmem-8n2-highmem-16n2-highmem-32n2-highmem-48n2-highmem-64n2-highmem-80n2-highcpu-16n2-highcpu-32n2-highcpu-48n2-highcpu-64n2-highcpu-80n1-standard-4n1-standard-8n1-standard-16n1-standard-32n1-standard-64n1-standard-96n1-highmem-2n1-highmem-4n1-highmem-8n1-highmem-16n1-highmem-32n1-highmem-64n1-highmem-96n1-highcpu-16n1-highcpu-32n1-highcpu-64n1-highcpu-96c2-standard-4c2-standard-8c2-standard-16c2-standard-30c2-standard-60ct5lp-hightpu-1t*ct5lp-hightpu-4t*ct5lp-hightpu-8t*m1-ultramem-40m1-ultramem-80m1-ultramem-160m1-megamem-96g2-standard-4*g2-standard-8*g2-standard-12*g2-standard-16*g2-standard-24*g2-standard-32*g2-standard-48*g2-standard-96*cloud-tpu*
* Jenis mesin yang ditandai dengan tanda bintang dalam daftar sebelumnya harus digunakan dengan GPU atau TPU tertentu. Lihat bagian berikutnya dalam panduan ini.
Untuk mempelajari spesifikasi teknis setiap jenis mesin, baca Dokumentasi Compute Engine tentang jenis mesin. Untuk mempelajari biaya penggunaan setiap jenis mesin untuk pelatihan kustom, baca Harga.
Contoh berikut menyoroti tempat Anda menentukan jenis mesin saat membuat CustomJob:
Konsol
Di konsol Google Cloud , Anda tidak dapat membuat CustomJob secara langsung. Namun,
Anda dapat membuat TrainingPipeline yang akan membuat
CustomJob. Saat Anda membuat
TrainingPipeline di konsol Google Cloud , tentukan jenis mesin untuk
setiap pool worker di langkah Compute and pricing, dalam kolom Machine type.
gcloud
gcloud ai custom-jobs create \
--region=LOCATION \
--display-name=JOB_NAME \
--worker-pool-spec=machine-type=MACHINE_TYPE,replica-count=REPLICA_COUNT,container-image-uri=CUSTOM_CONTAINER_IMAGE_URI
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Java Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Node.js Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python.
Untuk konteks selengkapnya, baca panduan untuk membuat CustomJob.
GPU
Jika telah menulis kode pelatihan untuk menggunakan GPU, Anda dapat mengonfigurasi pool worker untuk menggunakan satu atau beberapa GPU di setiap VM. Untuk menggunakan GPU, Anda harus menggunakan jenis mesin A2, N1, atau G2. Selain itu, penggunaan jenis mesin yang lebih kecil
seperti n1-highmem-2 dengan GPU dapat menyebabkan kegagalan logging untuk beberapa beban kerja
karena batasan CPU. Jika tugas pelatihan Anda berhenti menampilkan log, pertimbangkan untuk
memilih jenis mesin yang lebih besar.
Vertex AI mendukung jenis GPU berikut untuk pelatihan kustom:
NVIDIA_GB200+ (termasuk GPUDirect-RDMA)NVIDIA_B200* (termasuk GPUDirect-RDMA)NVIDIA_H100_MEGA_80GB* (termasuk GPUDirect-TCPXO)NVIDIA_H100_80GBNVIDIA_H200_141GB* (termasuk GPUDirect-RDMA)NVIDIA_A100_80GBNVIDIA_TESLA_A100(NVIDIA A100 40 GB)NVIDIA_TESLA_P4NVIDIA_TESLA_P100NVIDIA_TESLA_T4NVIDIA_TESLA_V100NVIDIA_L4
+ Memerlukan perolehan kapasitas menggunakan pemesanan bersama.
Untuk mempelajari lebih lanjut spesifikasi teknis setiap jenis GPU, baca Dokumentasi singkat Compute Engine tentang GPU untuk beban kerja komputasi. Guna mempelajari biaya penggunaan setiap jenis mesin untuk pelatihan kustom, baca Harga.
Dalam WorkerPoolSpec, tentukan jenis GPU yang ingin Anda gunakan di kolom machineSpec.acceleratorType dan jumlah GPU yang Anda inginkan untuk setiap VM dalam pool worker untuk digunakan di kolom machineSpec.acceleratorCount. Namun, pilihan Anda untuk kolom ini harus memenuhi batasan berikut:
Jenis GPU yang Anda pilih harus tersedia di lokasi tempat Anda melakukan pelatihan kustom. Tidak semua jenis GPU tersedia di semua region. Pelajari ketersediaan regional.
Anda hanya dapat menggunakan jumlah GPU tertentu dalam konfigurasi. Misalnya, Anda dapat menggunakan 2 atau 4 GPU
NVIDIA_TESLA_T4di VM, tetapi tidak dapat menggunakan 3. Untuk mengetahui nilaiacceleratorCountyang valid untuk setiap jenis GPU, lihat tabel kompatibilitas berikut.Anda harus memastikan bahwa konfigurasi GPU menyediakan CPU dan memori virtual yang memadai untuk jenis mesin yang Anda gunakan. Misalnya, jika Anda menggunakan jenis mesin
n1-standard-32dalam pool worker, setiap VM memiliki 32 CPU virtual dan memori sebesar 120 GB. Karena setiap GPUNVIDIA_TESLA_V100dapat menyediakan hingga 12 CPU virtual dan memori sebesar 76 GB, Anda harus menggunakan minimal 4 GPU untuk setiap VMn1-standard-32guna mendukung persyaratannya. (2 GPU memberikan resource yang tidak memadai, dan Anda tidak dapat menentukan 3 GPU.)Tabel kompatibilitas berikut memperhitungkan persyaratan ini.
Perhatikan batasan tambahan berikut terkait penggunaan GPU untuk pelatihan kustom yang berbeda dengan penggunaan GPU dengan Compute Engine:
- Konfigurasi dengan 4 GPU
NVIDIA_TESLA_P100hanya menyediakan hingga 64 CPU virtual dan memori hingga 208 GB di semua region dan zona.
- Konfigurasi dengan 4 GPU
Untuk tugas yang menggunakan Dynamic Workload Scheduler atau Spot VM, perbarui kolom
scheduling.strategydariCustomJobke strategi yang dipilih.
Tabel kompatibilitas berikut mencantumkan nilai yang valid untuk machineSpec.acceleratorCount, bergantung pada pilihan Anda untuk machineSpec.machineType dan machineSpec.acceleratorType:
| Jumlah GPU yang valid untuk setiap jenis mesin | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Jenis mesin | NVIDIA_H100_MEGA_80GB |
NVIDIA_H100_80GB |
NVIDIA_A100_80GB |
NVIDIA_TESLA_A100 |
NVIDIA_TESLA_P4 |
NVIDIA_TESLA_P100 |
NVIDIA_TESLA_T4 |
NVIDIA_TESLA_V100 |
NVIDIA_L4 |
NVIDIA_H200_141GB |
NVIDIA_B200 |
NVIDIA_GB200 |
a3-megagpu-8g |
8 | |||||||||||
a3-highgpu-1g |
1* | |||||||||||
a3-highgpu-2g |
2* | |||||||||||
a3-highgpu-4g |
4* | |||||||||||
a3-highgpu-8g |
8 | |||||||||||
a3-ultragpu-8g |
8 | |||||||||||
a4-highgpu-8g |
8 | |||||||||||
a4x-highgpu-4g |
4 | |||||||||||
a2-ultragpu-1g |
1 | |||||||||||
a2-ultragpu-2g |
2 | |||||||||||
a2-ultragpu-4g |
4 | |||||||||||
a2-ultragpu-8g |
8 | |||||||||||
a2-highgpu-1g |
1 | |||||||||||
a2-highgpu-2g |
2 | |||||||||||
a2-highgpu-4g |
4 | |||||||||||
a2-highgpu-8g |
8 | |||||||||||
a2-megagpu-16g |
16 | |||||||||||
n1-standard-4 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 1, 2, 4, 8 | ||||||||
n1-standard-8 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 1, 2, 4, 8 | ||||||||
n1-standard-16 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 2, 4, 8 | ||||||||
n1-standard-32 |
2, 4 | 2, 4 | 2, 4 | 4, 8 | ||||||||
n1-standard-64 |
4 | 4 | 8 | |||||||||
n1-standard-96 |
4 | 4 | 8 | |||||||||
n1-highmem-2 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 1, 2, 4, 8 | ||||||||
n1-highmem-4 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 1, 2, 4, 8 | ||||||||
n1-highmem-8 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 1, 2, 4, 8 | ||||||||
n1-highmem-16 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 2, 4, 8 | ||||||||
n1-highmem-32 |
2, 4 | 2, 4 | 2, 4 | 4, 8 | ||||||||
n1-highmem-64 |
4 | 4 | 8 | |||||||||
n1-highmem-96 |
4 | 4 | 8 | |||||||||
n1-highcpu-16 |
1, 2, 4 | 1, 2, 4 | 1, 2, 4 | 2, 4, 8 | ||||||||
n1-highcpu-32 |
2, 4 | 2, 4 | 2, 4 | 4, 8 | ||||||||
n1-highcpu-64 |
4 | 4 | 4 | 8 | ||||||||
n1-highcpu-96 |
4 | 4 | 8 | |||||||||
g2-standard-4 |
1 | |||||||||||
g2-standard-8 |
1 | |||||||||||
g2-standard-12 |
1 | |||||||||||
g2-standard-16 |
1 | |||||||||||
g2-standard-24 |
2 | |||||||||||
g2-standard-32 |
1 | |||||||||||
g2-standard-48 |
4 | |||||||||||
g2-standard-96 |
8 | |||||||||||
* Jenis mesin yang ditentukan hanya tersedia saat menggunakan Dynamic Workload Scheduler atau Spot VM.
Contoh berikut menyoroti tempat Anda dapat menentukan GPU saat membuat CustomJob:
Konsol
Di konsol Google Cloud , Anda tidak dapat membuat CustomJob secara langsung.
Namun, Anda dapat membuat TrainingPipeline yang akan membuat
CustomJob. Saat membuat
TrainingPipeline di konsol Google Cloud , Anda dapat menentukan GPU untuk setiap
pool worker pada langkah Compute and pricing. Pertama, tentukan Machine type. Kemudian, Anda dapat menentukan detail GPU di kolom Accelerator type dan Accelerator count.
gcloud
Untuk menentukan GPU menggunakan alat Google Cloud CLI, Anda harus menggunakan file config.yaml. Contoh:
config.yaml
workerPoolSpecs:
machineSpec:
machineType: MACHINE_TYPE
acceleratorType: ACCELERATOR_TYPE
acceleratorCount: ACCELERATOR_COUNT
replicaCount: REPLICA_COUNT
containerSpec:
imageUri: CUSTOM_CONTAINER_IMAGE_URI
Lalu, jalankan perintah seperti berikut:
gcloud ai custom-jobs create \
--region=LOCATION \
--display-name=JOB_NAME \
--config=config.yaml
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Node.js Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python.
Untuk konteks selengkapnya, baca panduan untuk membuat CustomJob.
GPUDirect Networking
Di Vertex Training, beberapa mesin seri H100, H200, B200, dan GB200 telah dikonfigurasi sebelumnya dengan stack jaringan GPUDirect. GPUDirect dapat meningkatkan kecepatan jaringan antar-GPU hingga 2x dibandingkan dengan GPU tanpa GPUDirect.
GPUDirect melakukannya dengan mengurangi overhead yang diperlukan untuk mentransfer payload paket antara GPU, sehingga meningkatkan throughput secara signifikan dalam skala besar.
GPUDirect-TCPXO
Jenis mesin a3-megagpu-8g memiliki:
- 8 GPU NVIDIA H100 per mesin
- Bandwidth hingga 200 Gbps di NIC utama
- 8 NIC sekunder yang masing-masing mendukung hingga 200 Gbps untuk transfer data GPU
- GPUDirect-TCPXO, yang lebih meningkatkan komunikasi GPU ke VM
GPU dengan GPUDirect sangat cocok untuk pelatihan terdistribusi model besar.
GPUDirect-RDMA
Jenis mesin a4x-highgpu-4g memiliki:
- 4 GPU GB200 per mesin
- 2 NIC host yang menyediakan bandwidth 400 Gbps
- 6 NIC yang menawarkan hingga 2.400 Gbps untuk transfer data GPU
- GPUDirect-RDMA, yang memungkinkan performa jaringan yang lebih tinggi untuk komunikasi GPU bagi beban kerja pelatihan ML skala besar melalui RoCE (RDMA over Converged Ethernet)
Jenis mesin a3-ultragpu-8g dan a4-highgpu-8g memiliki:
- 8 GPU NVIDIA H200/B200 per mesin
- 2 NIC host yang menyediakan bandwidth 400 Gbps
- 8 NIC yang menawarkan hingga 3.200 Gbps untuk transfer data GPU
- GPUDirect-RDMA, yang memungkinkan performa jaringan yang lebih tinggi untuk komunikasi GPU bagi beban kerja pelatihan ML skala besar melalui RoCE (RDMA over Converged Ethernet)
TPU
Agar dapat menggunakan Tensor Processing Unit (TPU) untuk pelatihan kustom pada Vertex AI, Anda dapat mengonfigurasi pool worker untuk menggunakan TPU VM.
Saat menggunakan VM TPU di Vertex AI, Anda hanya boleh menggunakan satu pool worker untuk pelatihan kustom, dan Anda harus mengonfigurasi pool worker ini agar menggunakan satu replika saja.
TPU v2 dan v3
Untuk menggunakan VM TPU v2 atau v3 di pool worker, Anda harus menggunakan salah satu konfigurasi berikut:
Untuk mengonfigurasi VM TPU dengan TPU v2, tentukan kolom berikut di
WorkerPoolSpec:- Tetapkan
machineSpec.machineTypekecloud-tpu. - Tetapkan
machineSpec.acceleratorTypekeTPU_V2. - Tetapkan
machineSpec.acceleratorCountke8untuk satu TPU atau32 or multiple of 32untuk Pod TPU. - Tetapkan
replicaCountke1.
- Tetapkan
Untuk mengonfigurasi VM TPU dengan TPU v3, tentukan kolom berikut di
WorkerPoolSpec:- Tetapkan
machineSpec.machineTypekecloud-tpu. - Tetapkan
machineSpec.acceleratorTypekeTPU_V3. - Tetapkan
machineSpec.acceleratorCountke8untuk satu TPU atau32+untuk Pod TPU. - Tetapkan
replicaCountke1.
- Tetapkan
Untuk mengetahui informasi tentang ketersediaan TPU di berbagai region, lihat Menggunakan akselerator.
TPU v5e
TPU v5e memerlukan JAX 0.4.6+, TensorFlow 2.15+, atau
PyTorch 2.1+. Untuk mengonfigurasi VM TPU dengan TPU v5e, tentukan kolom berikut
di WorkerPoolSpec:
- Tetapkan
machineSpec.machineTypekect5lp-hightpu-1t,ct5lp-hightpu-4t, atauct5lp-hightpu-8t. - Tetapkan
machineSpec.tpuTopologyke topologi yang didukung untuk jenis mesin. Untuk mengetahui detailnya, lihat tabel berikut. - Tetapkan
replicaCountke1.
Tabel berikut menunjukkan jenis dan topologi mesin TPU v5e yang didukung untuk pelatihan kustom:
| Machine Type | Topologi | Jumlah chip TPU | Jumlah VM | Kasus penggunaan yang direkomendasikan |
|---|---|---|---|---|
ct5lp-hightpu-1t |
1x1 | 1 | 1 | Pelatihan skala kecil hingga menengah |
ct5lp-hightpu-4t |
2x2 | 4 | 1 | Pelatihan skala kecil hingga menengah |
ct5lp-hightpu-8t |
2x4 | 8 | 1 | Pelatihan skala kecil hingga menengah |
ct5lp-hightpu-4t |
2x4 | 8 | 2 | Pelatihan skala kecil hingga menengah |
ct5lp-hightpu-4t |
4x4 | 16 | 4 | Pelatihan skala besar |
ct5lp-hightpu-4t |
4x8 | 32 | 8 | Pelatihan skala besar |
ct5lp-hightpu-4t |
8x8 | 64 | 16 | Pelatihan skala besar |
ct5lp-hightpu-4t |
8x16 | 128 | 32 | Pelatihan skala besar |
ct5lp-hightpu-4t |
16x16 | 256 | 64 | Pelatihan skala besar |
Tugas pelatihan kustom yang berjalan di VM TPU v5e dioptimalkan untuk throughput dan ketersediaan. Untuk mengetahui informasi selengkapnya, lihat Jenis akselerator pelatihan v5e.
Untuk mengetahui informasi tentang ketersediaan TPU di berbagai region, lihat Menggunakan akselerator. Untuk mengetahui informasi selengkapnya tentang TPU v5e, lihat Pelatihan Cloud TPU v5e.
Perbandingan jenis mesin:
| Machine Type | ct5lp-hightpu-1t | ct5lp-hightpu-4t | ct5lp-hightpu-8t |
|---|---|---|---|
| Jumlah chip v5e | 1 | 4 | 8 |
| Jumlah vCPU | 24 | 112 | 224 |
| RAM (GB) | 48 | 192 | 384 |
| Jumlah node NUMA | 1 | 1 | 2 |
| Kemungkinan preemption | Tinggi | Sedang | Rendah |
TPU v6e
TPU v6e memerlukan Python 3.10+, JAX 0.4.37+,
PyTorch 2.1+ menggunakan PJRT sebagai runtime default, atau TensorFlow yang hanya menggunakan
tf-nightly versi runtime 2.18+. Untuk mengonfigurasi VM TPU dengan TPU v6e,
tentukan kolom berikut di WorkerPoolSpec:
- Tetapkan
machineSpec.machineTypekect6e. - Tetapkan
machineSpec.tpuTopologyke topologi yang didukung untuk jenis mesin. Untuk mengetahui detailnya, lihat tabel berikut. - Tetapkan
replicaCountke1.
Tabel berikut menunjukkan jenis mesin dan topologi TPU v6e yang didukung untuk pelatihan kustom:
| Machine Type | Topologi | Jumlah chip TPU | Jumlah VM | Kasus penggunaan yang direkomendasikan |
|---|---|---|---|---|
ct6e-standard-1t |
1x1 | 1 | 1 | Pelatihan skala kecil hingga menengah |
ct6e-standard-8t |
2x4 | 8 | 1 | Pelatihan skala kecil hingga menengah |
ct6e-standard-4t |
2x2 | 4 | 1 | Pelatihan skala kecil hingga menengah |
ct6e-standard-4t |
2x4 | 8 | 2 | Pelatihan skala kecil hingga menengah |
ct6e-standard-4t |
4x4 | 16 | 4 | Pelatihan skala besar |
ct6e-standard-4t |
4x8 | 32 | 8 | Pelatihan skala besar |
ct6e-standard-4t |
8x8 | 64 | 16 | Pelatihan skala besar |
ct6e-standard-4t |
8x16 | 128 | 32 | Pelatihan skala besar |
ct6e-standard-4t |
16x16 | 256 | 64 | Pelatihan skala besar |
Untuk mengetahui informasi tentang ketersediaan TPU di berbagai region, lihat Menggunakan akselerator. Untuk mengetahui informasi selengkapnya tentang TPU v6e, lihat Pelatihan Cloud TPU v6e.
Perbandingan jenis mesin:
| Machine Type | ct6e-standard-1t | ct6e-standard-4t | ct6e-standard-8t |
|---|---|---|---|
| Jumlah chip v6e | 1 | 4 | 8 |
| Jumlah vCPU | 44 | 180 | 180 |
| RAM (GB) | 48 | 720 | 1440 |
| Jumlah node NUMA | 2 | 1 | 2 |
| Kemungkinan preemption | Tinggi | Sedang | Rendah |
Contoh CustomJob yang menentukan VM TPU
Contoh berikut menyoroti cara menentukan VM TPU saat Anda membuat CustomJob:
gcloud
Untuk menentukan VM TPU menggunakan alat gcloud CLI, Anda harus menggunakan file config.yaml.
Pilih salah satu tab berikut untuk melihat contoh:
TPU v2/v3
workerPoolSpecs:
machineSpec:
machineType: cloud-tpu
acceleratorType: TPU_V2
acceleratorCount: 8
replicaCount: 1
containerSpec:
imageUri: CUSTOM_CONTAINER_IMAGE_URI
TPU v5e
workerPoolSpecs:
machineSpec:
machineType: ct5lp-hightpu-4t
tpuTopology: 4x4
replicaCount: 1
containerSpec:
imageUri: CUSTOM_CONTAINER_IMAGE_URI
Lalu, jalankan perintah seperti berikut:
gcloud ai custom-jobs create \
--region=LOCATION \
--display-name=JOB_NAME \
--config=config.yaml
Python
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Python Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Untuk menentukan VM TPU menggunakan Vertex AI SDK untuk Python, lihat contoh berikut:
from google.cloud.aiplatform import aiplatform job = aiplatform.CustomContainerTrainingJob( display_name='DISPLAY_NAME', location='us-west1', project='PROJECT_ID', staging_bucket="gs://CLOUD_STORAGE_URI", container_uri='CONTAINER_URI') job.run(machine_type='ct5lp-hightpu-4t', tpu_topology='2x2')
Untuk mengetahui informasi selengkapnya tentang cara membuat tugas pelatihan kustom, lihat artikel Membuat tugas pelatihan kustom.
Opsi boot disk
Anda dapat menyesuaikan boot disk untuk VM pelatihan (opsional). Semua VM di pool worker menggunakan jenis dan ukuran boot disk yang sama.
Untuk menyesuaikan jenis boot disk yang digunakan oleh setiap VM pelatihan, tentukan kolom
diskSpec.bootDiskTypedalamWorkerPoolSpecAnda.Anda dapat menyetel kolom ini ke salah satu opsi berikut:
pd-standarduntuk menggunakan persistent disk standar yang didukung oleh hard drive standarpd-ssduntuk menggunakan persistent disk SSD yang didukung oleh solid state drivehyperdisk-balanceduntuk tingkat IOPS dan throughput yang lebih tinggi.
Nilai defaultnya adalah
pd-ssd(hyperdisk-balancedadalah default untuka3-ultragpu-8gdana4-highgpu-8g).Menggunakan
pd-ssdatauhyperdisk-balanceddapat meningkatkan performa jika kode pelatihan Anda membaca dan menulis ke disk. Pelajari jenis disk. Lihat juga mesin yang didukung hyperdisk.Untuk menyesuaikan ukuran (dalam GB) boot disk yang digunakan oleh setiap VM pelatihan, tentukan kolom
diskSpec.bootDiskSizeGbdiWorkerPoolSpecAnda.Anda dapat menetapkan kolom ini ke bilangan bulat antara 100 dan 64.000, inklusif. Nilai defaultnya adalah
100.Anda mungkin ingin menambah ukuran boot disk jika kode pelatihan Anda menulis banyak data sementara ke disk. Perlu diketahui bahwa data apa pun yang Anda tulis ke boot disk bersifat sementara, dan Anda tidak dapat mengambilnya setelah pelatihan selesai.
Mengubah jenis dan ukuran boot disk akan memengaruhi harga pelatihan kustom.
Contoh berikut menyoroti tempat Anda dapat menentukan opsi boot disk saat membuat CustomJob:
Konsol
Di konsol Google Cloud , Anda tidak dapat membuat CustomJob secara langsung.
Namun, Anda dapat membuat TrainingPipeline yang akan membuat
CustomJob. Saat membuat
TrainingPipeline di konsol Google Cloud , Anda dapat menentukan opsi boot disk untuk setiap worker pool pada langkah Compute and pricing, di menu drop-down Disk type dan kolom Disk size (GB).
gcloud
Untuk menentukan opsi boot disk menggunakan alat Google Cloud CLI, Anda harus menggunakan file config.yaml. Contoh:
config.yaml
workerPoolSpecs:
machineSpec:
machineType: MACHINE_TYPE
diskSpec:
bootDiskType: DISK_TYPE
bootDiskSizeGb: DISK_SIZE
replicaCount: REPLICA_COUNT
containerSpec:
imageUri: CUSTOM_CONTAINER_IMAGE_URI
Lalu, jalankan perintah seperti berikut:
gcloud ai custom-jobs create \
--region=LOCATION \
--display-name=JOB_NAME \
--config=config.yaml
Untuk konteks selengkapnya, baca panduan untuk membuat CustomJob.
Langkah berikutnya
- Pelajari cara membuat resource persisten untuk menjalankan tugas pelatihan kustom.
- Pelajari cara melakukan pelatihan kustom dengan membuat
CustomJob.