Halaman ini memberikan panduan untuk men-deploy model AI generatif ke endpoint untuk inferensi online.
Memeriksa Model Garden
Jika model berada di Model Garden, Anda dapat men-deploy-nya dengan mengklik Deploy (tersedia untuk beberapa model) atau Open Notebook.
Jika tidak, Anda dapat melakukan salah satu hal berikut:
Jika model Anda mirip dengan model di Model Garden, Anda mungkin dapat langsung menggunakan kembali salah satu container Model Garden.
Buat container kustom Anda sendiri yang mematuhi Persyaratan container kustom untuk inferensi sebelum mengimpor model Anda ke Model Registry Platform Agen Gemini Enterprise. Setelah diimpor, model tersebut akan menjadi resource
modelyang dapat Anda deploy ke endpoint.Anda dapat menggunakan Dockerfile dan skrip yang kami gunakan untuk membangun container Model Garden sebagai referensi atau titik awal untuk membangun container kustom Anda sendiri.
Menayangkan inferensi dengan NVIDIA NIM
NVIDIA Inference Microservices (NIM) adalah model AI yang sudah terlatih dan dioptimalkan yang dikemas sebagai microservice. Model ini dirancang untuk menyederhanakan deployment AI berperforma tinggi dan siap produksi ke dalam aplikasi.
NVIDIA NIM dapat digunakan bersama dengan Artifact Registry dan Platform Agen Gemini Enterprise untuk men-deploy model AI generatif untuk inferensi online.
Setelan untuk container kustom
Bagian ini menjelaskan kolom di model Anda
containerSpec yang mungkin perlu Anda
tentukan saat mengimpor model AI generatif.
Anda dapat menentukan kolom ini menggunakan Agent Platform REST API atau perintah
gcloud ai models upload.
Untuk mengetahui informasi selengkapnya, lihat
Kolom API terkait container.
sharedMemorySizeMbBeberapa model AI generatif memerlukan lebih banyak memori bersama. Memori bersama adalah mekanisme Komunikasi antar-proses (IPC) yang memungkinkan beberapa proses mengakses dan memanipulasi blok memori umum. Ukuran memori bersama default adalah 64 MB.
Beberapa server model, seperti vLLM atau Nvidia Triton, menggunakan memori bersama untuk menyimpan data internal dalam cache selama inferensi model. Tanpa memori bersama yang cukup, beberapa server model tidak dapat menayangkan inferensi untuk model generatif. Jumlah memori bersama yang diperlukan, jika ada, adalah detail implementasi container dan model Anda. Lihat dokumentasi server model Anda untuk mengetahui panduannya.
Selain itu, karena memori bersama dapat digunakan untuk komunikasi GPU lintas, penggunaan lebih banyak memori bersama dapat meningkatkan performa untuk akselerator tanpa kemampuan NVLink (misalnya, L4), jika container model memerlukan komunikasi lintas GPU.
Untuk mengetahui informasi tentang cara menentukan nilai kustom untuk memori bersama, lihat Kolom API terkait container.
startupProbePemeriksaan startup adalah pemeriksaan opsional yang digunakan untuk mendeteksi kapan container telah dimulai. Pemeriksaan ini digunakan untuk menunda pemeriksaan kesehatan dan pemeriksaan keaktifan hingga container dimulai, yang membantu mencegah container yang dimulai dengan lambat dimatikan sebelum waktunya.
Untuk mengetahui informasi selengkapnya, lihat Health check.
healthProbePemeriksaan kesehatan memeriksa apakah container siap menerima traffic. Jika pemeriksaan kesehatan tidak diberikan, Platform Agen akan menggunakan pemeriksaan kesehatan default yang mengeluarkan permintaan HTTP ke port container dan mencari respons
200 OKdari server model.Jika server model Anda merespons dengan
200 OKsebelum model dimuat sepenuhnya, yang mungkin terjadi, terutama untuk model besar, health check akan berhasil sebelum waktunya dan Gemini Enterprise Agent Platform akan merutekan traffic ke container sebelum siap.Dalam kasus ini, tentukan pemeriksaan kesehatan kustom yang hanya berhasil setelah model dimuat sepenuhnya dan siap menerima traffic.
Untuk mengetahui informasi selengkapnya, lihat Health check.
Batasan
Pertimbangkan batasan berikut saat men-deploy model AI generatif:
- Model AI generatif hanya dapat di-deploy ke satu mesin. Deployment multi-host tidak didukung.
- Untuk model yang sangat besar yang tidak sesuai dengan vRAM terbesar yang didukung, seperti Llama 3.1 405B, sebaiknya lakukan kuantisasi agar sesuai.