Penjadwalan koleksi TPU untuk workload inferensi

Trillium (v6e) menyertakan fitur yang disebut "penjadwalan koleksi" yang memungkinkan Anda mengelompokkan sekumpulan slice TPU, host tunggal atau multi-host, yang dimaksudkan untuk menayangkan replika model yang sama. Fitur ini tersedia untuk konfigurasi Cloud TPU dan Google Kubernetes Engine (GKE).

Dokumen ini membahas penggunaan penjadwalan koleksi dengan Cloud TPU API. Lihat dokumentasi GKE untuk mengetahui informasi selengkapnya tentang penggunaan penjadwalan koleksi dengan GKE.

Dengan membuat koleksi untuk workload inferensi Anda, Google Cloud batas dan gangguan yang disederhanakan pada operasi workload inferensi. Hal ini berguna untuk workload inferensi yang mengkhawatirkan ketersediaan tinggi adalah masalah. Google Cloud memastikan ketersediaan tinggi untuk koleksi guna mengelola traffic masuk. Sebagian slice dalam koleksi selalu tersedia untuk menangani traffic masuk.

Setiap slice TPU dalam koleksi akan memiliki jenis dan topologi akselerator yang sama.

Membuat koleksi dari Cloud TPU API

Saat Anda meminta resource dalam antrean menggunakan Cloud TPU API, gunakan flag --workload-type=AVAILABILITY-OPTIMIZED untuk membuat koleksi. Flag ini menunjukkan kepada infrastruktur Cloud TPU bahwa flag tersebut dimaksudkan untuk digunakan bagi workload yang berfokus pada ketersediaan.

Perintah berikut menyediakan koleksi menggunakan Cloud TPU API:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

Flag --node-count menentukan jumlah slice yang Anda inginkan dalam resource dalam antrean. Tindakan ini akan membuat koleksi slice TPU.

Opsional: Flag --node-prefix menentukan awalan untuk nama slice.