Menjalankan inferensi di Cloud TPU

Penyajian mengacu pada proses men-deploy model machine learning terlatih ke lingkungan produksi, tempat model tersebut dapat digunakan untuk inferensi. Inferensi didukung di TPU v5e dan versi yang lebih baru. SLO latensi adalah prioritas untuk penyajian.

Dokumen ini membahas penyajian model di TPU host tunggal. Slice TPU dengan 8 chip atau kurang memiliki satu VM atau host TPU dan disebut TPU host tunggal. Untuk mengetahui informasi tentang inferensi multi-host, lihat Melakukan inferensi multi-host menggunakan Pathways.

Mulai

Anda memerlukan Google Cloud akun dan project untuk menggunakan Cloud TPU. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan lingkungan Cloud TPU environment.

Pastikan Anda memiliki kuota yang cukup untuk jumlah inti TPU yang Anda rencanakan untuk digunakan dalam inferensi. TPU v5e menggunakan kuota terpisah untuk pelatihan dan penyajian. Kuota khusus penyajian untuk TPU v5e adalah:

  • Resource v5e sesuai permintaan: TPUv5 lite pod cores for serving per project per zone
  • Resource v5e preemptible: Preemptible TPU v5 lite pod cores for serving per project per zone

Untuk versi TPU lainnya, workload pelatihan dan penyajian menggunakan kuota yang sama. Untuk mengetahui informasi selengkapnya, lihat Kuota Cloud TPU.

Menyajikan LLM dengan vLLM

vLLM adalah library open source yang dirancang untuk inferensi dan penyajian model bahasa besar (LLM) yang cepat. Cloud TPU terintegrasi dengan vLLM menggunakan plugin tpu-inference, yang mendukung model JAX dan PyTorch. Untuk mengetahui informasi selengkapnya, lihat tpu-inference repositori GitHub.

Untuk contoh penggunaan vLLM untuk menyajikan model di TPU, lihat hal berikut:

Pembuatan profil

Setelah menyiapkan inferensi, Anda dapat menggunakan profiler untuk menganalisis performa dan penggunaan TPU. Untuk mengetahui informasi selengkapnya tentang pembuatan profil, lihat: