Menjalankan inferensi di Cloud TPU

Penayangan mengacu pada proses men-deploy model machine learning terlatih ke lingkungan produksi, tempat model tersebut dapat digunakan untuk inferensi. Inferensi didukung di TPU v5e dan versi yang lebih baru. SLO latensi adalah prioritas untuk penayangan.

Dokumen ini membahas penyajian model di TPU host tunggal. Slice TPU dengan 8 chip atau kurang memiliki satu VM atau host TPU dan disebut TPU host tunggal. Untuk mengetahui informasi tentang inferensi multi-host, lihat Melakukan inferensi multi-host menggunakan Pathways.

Mulai

Anda memerlukan Google Cloud akun dan project untuk menggunakan Cloud TPU. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan project untuk TPU. Google Cloud

Pastikan Anda memiliki kuota yang cukup untuk jumlah inti TPU yang akan digunakan untuk inferensi. TPU v5e menggunakan kuota terpisah untuk pelatihan dan penayangan. Di Cloud TPU API, kuota khusus penayangan untuk TPU v5e adalah sebagai berikut:

  • Materi v5e sesuai permintaan: TPUv5 lite pod cores for serving per project per zone
  • Sumber daya v5e yang dapat di-preempt: Preemptible TPU v5 lite pod cores for serving per project per zone

Untuk versi TPU lainnya, workload pelatihan dan penayangan menggunakan kuota yang sama. Untuk mengetahui informasi selengkapnya, lihat kuota Cloud TPU.

Menyajikan LLM dengan vLLM

vLLM adalah library open source yang dirancang untuk inferensi dan penayangan model bahasa besar (LLM) yang cepat. Cloud TPU terintegrasi dengan vLLM menggunakan plugin tpu-inference, yang mendukung model JAX dan PyTorch. Untuk mengetahui informasi selengkapnya, lihat repositori GitHub tpu-inference.

Untuk contoh penggunaan vLLM untuk menyajikan model di TPU, lihat berikut ini:

Pembuatan profil

Setelah menyiapkan inferensi, Anda dapat menggunakan profiler untuk menganalisis performa dan pemanfaatan TPU. Untuk mengetahui informasi selengkapnya tentang pembuatan profil, lihat: