Menjalankan inferensi LLM di Cloud Run dengan TGI Hugging Face

Contoh berikut menunjukkan cara menjalankan layanan backend yang menjalankan toolkit Inferensi Pembuatan Teks (TGI) Hugging Face menggunakan Llama 3. Hugging Face TGI adalah Model Bahasa Besar (LLM) terbuka, dan dapat di-deploy serta disajikan di layanan Cloud Run dengan GPU yang diaktifkan.

Lihat contoh lengkapnya di Men-deploy Llama 3.1 8B dengan TGI DLC di Cloud Run.