Penjadwalan pengumpulan TPU untuk workload inferensi
Trillium (v6e) menyertakan fitur yang disebut "penjadwalan pengumpulan" yang memungkinkan Anda mengelompokkan sekumpulan slice TPU, host tunggal atau multi-host, yang ditujukan untuk menayangkan replika model yang sama. Fitur ini tersedia untuk konfigurasi Cloud TPU dan Google Kubernetes Engine (GKE).
Dokumen ini membahas penggunaan penjadwalan pengumpulan dengan Cloud TPU API. Lihat dokumentasi GKE untuk mengetahui informasi selengkapnya tentang penggunaan penjadwalan pengumpulan dengan GKE.
Dengan membuat koleksi untuk beban kerja inferensi Anda,Google Cloud membatasi dan menyederhanakan gangguan pada operasi beban kerja inferensi. Hal ini berguna untuk workload inferensi yang memerlukan ketersediaan tinggi. Google Cloud memastikan ketersediaan tinggi untuk koleksi guna mengelola traffic masuk. Sebagian slice dalam koleksi selalu tersedia untuk menangani traffic masuk.
Setiap slice TPU dalam koleksi akan memiliki jenis dan topologi akselerator yang sama.
Membuat koleksi dari Cloud TPU API
Saat Anda meminta resource dalam antrean menggunakan Cloud TPU API, Anda menggunakan flag --workload-type=AVAILABILITY-OPTIMIZED untuk membuat koleksi. Flag ini menunjukkan kepada infrastruktur Cloud TPU bahwa infrastruktur tersebut dimaksudkan untuk digunakan bagi workload yang berfokus pada ketersediaan.
Perintah berikut menyediakan koleksi menggunakan Cloud TPU API:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
Flag --node-count menentukan jumlah slice yang Anda inginkan dalam
resource yang diantrekan. Tindakan ini akan membuat kumpulan slice TPU.
Opsional: Flag --node-prefix menentukan awalan untuk nama slice.