Inferensi Cloud TPU

Penayangan mengacu pada proses men-deploy model machine learning terlatih ke lingkungan produksi, tempat model tersebut dapat digunakan untuk inferensi. Inferensi didukung di TPU v5e dan versi yang lebih baru. SLO latensi adalah prioritas untuk penayangan.

Dokumen ini membahas cara menyajikan model di TPU host tunggal. Slice TPU dengan 8 chip atau kurang memiliki satu VM atau host TPU dan disebut TPU host tunggal. Untuk mengetahui informasi tentang inferensi multi-host, lihat Melakukan inferensi multi-host menggunakan Pathways.

Mulai

Anda memerlukan akun dan project untuk menggunakan Cloud TPU. Google Cloud Untuk mengetahui informasi selengkapnya, lihat Menyiapkan lingkungan Cloud TPU.

Pastikan Anda memiliki kuota yang cukup untuk jumlah core TPU yang akan digunakan untuk inferensi. TPU v5e menggunakan kuota terpisah untuk pelatihan dan penayangan. Kuota khusus penayangan untuk TPU v5e adalah:

  • Materi v5e sesuai permintaan: TPUv5 lite pod cores for serving per project per zone
  • Resource v5e yang dapat di-preempt: Preemptible TPU v5 lite pod cores for serving per project per zone

Untuk versi TPU lainnya, workload pelatihan dan penayangan menggunakan kuota yang sama. Untuk mengetahui informasi selengkapnya, lihat kuota Cloud TPU.

Menyajikan LLM dengan vLLM

vLLM adalah pustaka open source yang dirancang untuk inferensi dan penayangan model bahasa besar (LLM) yang cepat. Cloud TPU terintegrasi dengan vLLM menggunakan plugin tpu-inference, yang mendukung model JAX dan PyTorch. Untuk mengetahui informasi selengkapnya, lihat repositori GitHub tpu-inference.

Untuk contoh penggunaan vLLM guna menayangkan model di TPU, lihat berikut ini:

Pembuatan profil

Setelah menyiapkan inferensi, Anda dapat menggunakan profiler untuk menganalisis performa dan pemanfaatan TPU. Untuk mengetahui informasi selengkapnya tentang pembuatan profil, lihat: