Inferensi adalah output dari model machine learning yang telah dilatih. Halaman ini menyediakan ringkasan alur kerja untuk mendapatkan inferensi dari model Anda di Agent Platform.
Agent Platform menawarkan dua metode untuk mendapatkan inferensi:
-
Inferensi online adalah permintaan sinkron yang dibuat untuk
model yang di-deploy ke
Endpoint. Oleh karena itu, sebelum mengirim permintaan, Anda harus men-deploy resourceModelke endpoint terlebih dahulu. Hal ini mengaitkan resource komputasi dengan model sehingga model dapat menyajikan inferensi online dengan latensi rendah. Gunakan inferensi online saat Anda membuat permintaan sebagai respons terhadap input aplikasi atau dalam situasi yang memerlukan inferensi tepat waktu. -
Inferensi
batch adalah permintaan asinkron yang dibuat ke model
yang tidak di-deploy ke endpoint. Anda mengirim permintaan (sebagai
resource
BatchPredictionJob) langsung ke resourceModel. Gunakan inferensi batch jika Anda tidak memerlukan respons langsung dan ingin memproses data yang terakumulasi menggunakan satu permintaan.
Menguji model Anda secara lokal
Sebelum mendapatkan inferensi, sebaiknya deploy model Anda ke endpoint lokal selama fase pengembangan dan pengujian. Hal ini memungkinkan Anda melakukan iterasi dengan lebih cepat dan menguji model tanpa men-deploy-nya ke endpoint online atau menimbulkan biaya inferensi. Deployment lokal ditujukan untuk pengembangan dan pengujian lokal, bukan untuk deployment produksi.
Untuk men-deploy model secara lokal, gunakan Agent Platform SDK untuk Python dan deploy
LocalModel
ke
LocalEndpoint.
Untuk demonstrasi, lihat notebook ini.
Meskipun klien Anda tidak ditulis dalam Python, Anda tetap dapat menggunakan Agent Platform SDK untuk Python guna meluncurkan container dan server sehingga Anda dapat menguji permintaan dari klien Anda.
Mendapatkan inferensi dari model terlatih kustom
Untuk mendapatkan inferensi, Anda harus mengimpor
model terlebih dahulu. Setelah diimpor, resource tersebut menjadi
resource Model yang terlihat di
Model Registry.
Kemudian, baca dokumentasi berikut untuk mempelajari cara mendapatkan inferensi:
Langkah berikutnya
- Pelajari Resource komputasi untuk prediksi.