Kuota throughput

Vertex AI menyediakan berbagai cara untuk mengelola throughput model AI generatif guna membantu Anda menyeimbangkan biaya dan performa. Dokumen ini menjelaskan opsi yang tersedia: model bayar sesuai penggunaan yang fleksibel dan kapasitas yang dicadangkan untuk throughput yang dapat diprediksi.

Kuota model terkelola

Vertex AI menawarkan dua cara untuk mengelola throughput model AI generatif terkelola di Vertex AI, yang memungkinkan Anda menyeimbangkan biaya, fleksibilitas, dan performa. Anda dapat menggunakan model bayar sesuai penggunaan yang fleksibel atau mencadangkan jumlah throughput khusus dengan harga tetap.

Bayar sesuai penggunaan

Untuk model bayar sesuai penggunaan default, Vertex AI menggunakan Kuota Bersama Dinamis, yang tidak memiliki batas penggunaan yang telah ditentukan sebelumnya. Sebagai gantinya, Anda mendapatkan akses ke kumpulan resource bersama yang besar dan dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan real-time.

Model ini memungkinkan beban kerja Anda menggunakan lebih banyak resource saat tersedia. Jika Anda menerima error resource exhausted (429), berarti pool bersama sedang mengalami permintaan tinggi dari banyak pengguna sekaligus. Anda harus menerapkan mekanisme percobaan ulang di aplikasi Anda, karena ketersediaan dapat berubah dengan cepat.

Kapasitas yang Dicadangkan

Untuk aplikasi produksi penting yang memerlukan performa yang konsisten dan biaya yang dapat diprediksi, Anda dapat menggunakan Throughput yang Disediakan. Throughput yang Disediakan adalah langganan biaya tetap yang mencadangkan jumlah throughput tertentu untuk model Anda di lokasi yang dipilih.

Kuota untuk layanan AI Generatif

Vertex AI menawarkan serangkaian layanan AI generatif, seperti penyesuaian model, evaluasi model, prediksi batch, penyematan, dan retrieval augmented generation. Untuk mempelajari lebih lanjut kuota untuk layanan ini, lihat Kuota dan batas sistem AI Generatif di Vertex AI.

Langkah berikutnya