Menjalankan inferensi di Cloud TPU
Penayangan mengacu pada proses men-deploy model machine learning terlatih ke lingkungan produksi, tempat model tersebut dapat digunakan untuk inferensi. Inferensi didukung di TPU v5e dan versi yang lebih baru. SLO latensi adalah prioritas untuk penayangan.
Dokumen ini membahas penyajian model di TPU host tunggal. Slice TPU dengan 8 chip atau kurang memiliki satu VM atau host TPU dan disebut TPU host tunggal. Untuk mengetahui informasi tentang inferensi multi-host, lihat Melakukan inferensi multi-host menggunakan Pathways.
Mulai
Anda memerlukan Google Cloud akun dan project untuk menggunakan Cloud TPU. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan project untuk TPU. Google Cloud
Pastikan Anda memiliki kuota yang cukup untuk jumlah inti TPU yang akan digunakan untuk inferensi. TPU v5e menggunakan kuota terpisah untuk pelatihan dan penayangan. Di Cloud TPU API, kuota khusus penayangan untuk TPU v5e adalah sebagai berikut:
- Materi v5e sesuai permintaan:
TPUv5 lite pod cores for serving per project per zone - Sumber daya v5e yang dapat di-preempt:
Preemptible TPU v5 lite pod cores for serving per project per zone
Untuk versi TPU lainnya, workload pelatihan dan penayangan menggunakan kuota yang sama. Untuk mengetahui informasi selengkapnya, lihat kuota Cloud TPU.
Menyajikan LLM dengan vLLM
vLLM adalah library open source yang dirancang untuk
inferensi dan penayangan model bahasa besar (LLM) yang cepat. Cloud TPU
terintegrasi dengan vLLM menggunakan plugin tpu-inference, yang mendukung model JAX dan
PyTorch. Untuk mengetahui informasi selengkapnya, lihat repositori GitHub tpu-inference.
Untuk contoh penggunaan vLLM untuk menyajikan model di TPU, lihat berikut ini:
- Mulai menggunakan vLLM TPU
- Menyajikan LLM menggunakan TPU Trillium di GKE dengan vLLM.
- Resep untuk menayangkan vLLM di TPU Trillium (v6e)
Pembuatan profil
Setelah menyiapkan inferensi, Anda dapat menggunakan profiler untuk menganalisis performa dan pemanfaatan TPU. Untuk mengetahui informasi selengkapnya tentang pembuatan profil, lihat: