Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Model resource

Diagram berikut menunjukkan model resource inferensi Knative:

Layanan dan revisi inferensi Knative

Diagram ini menunjukkan a Google Cloud project yang berisi dua layanan inferensi Knative, Service A dan Service B, yang masing-masing memiliki beberapa revisi.

Dalam diagram, Service A menerima banyak permintaan, yang menyebabkan startup dan menjalankan beberapa instance container. Perhatikan bahwa saat ini Service B belum menerima permintaan, sehingga belum ada instance container yang dimulai.

Layanan inferensi Knative

Layanan adalah resource utama inferensi Knative. Setiap layanan berada di namespace cluster GKE tertentu.

Project tertentu dapat menjalankan banyak layanan di berbagai region atau cluster GKE. Google Cloud

Setiap layanan mengekspos endpoint unik dan secara otomatis menskalakan infrastruktur yang mendasarinya untuk menangani permintaan masuk.

Revisi inferensi Knative

Setiap deployment ke layanan membuat revisi. Revisi terdiri dari image container tertentu, bersama dengan setelan lingkungan seperti variabel lingkungan, batas memori, atau nilai konkurensi.

Revisi tidak dapat diubah: setelah revisi dibuat, revisi tidak dapat dimodifikasi. Misalnya, saat Anda men-deploy image container ke layanan inferensi Knative yang baru, revisi pertama akan dibuat. Jika kemudian Anda men-deploy image container yang berbeda ke layanan yang sama, revisi kedua akan dibuat. Jika selanjutnya Anda menetapkan variabel lingkungan, revisi ketiga akan dibuat, dan seterusnya .

Permintaan akan diarahkan secara otomatis sesegera mungkin ke revisi layanan responsif terbaru. Anda dapat memisahkan traffic antar-revisi sesuai keinginan.

Instance container inferensi Knative

Setiap revisi yang menerima permintaan akan disesuaikan secara otomatis dengan jumlah instance container yang diperlukan untuk menangani semua permintaan ini. Perhatikan bahwa instance container dapat menerima banyak permintaan secara bersamaan. Dengan setelan konkurensi, Anda dapat menetapkan permintaan maksimum yang dapat dikirim secara paralel ke instance container tertentu.

Model resource Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Layanan inferensi Knative

Revisi inferensi Knative

Instance container inferensi Knative

Model resource