Vertex AI menyediakan berbagai cara untuk mengelola throughput model AI generatif guna membantu Anda menyeimbangkan biaya dan performa. Dokumen ini menjelaskan opsi yang tersedia: model bayar sesuai penggunaan yang fleksibel dan kapasitas yang dicadangkan untuk throughput yang dapat diprediksi.
Kuota model terkelola
Vertex AI menawarkan dua cara untuk mengelola throughput model AI generatif terkelola di Vertex AI, yang memungkinkan Anda menyeimbangkan biaya, fleksibilitas, dan performa. Anda dapat menggunakan model bayar sesuai penggunaan yang fleksibel atau mencadangkan jumlah throughput khusus dengan harga tetap.
Bayar sesuai penggunaan
Untuk model bayar sesuai penggunaan default, Vertex AI menggunakan Kuota Bersama Dinamis, yang tidak memiliki batas penggunaan yang telah ditentukan sebelumnya. Sebagai gantinya, Anda mendapatkan akses ke kumpulan resource bersama yang besar dan dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan real-time.
Model ini memungkinkan beban kerja Anda menggunakan lebih banyak resource saat tersedia.
Jika Anda menerima error resource exhausted (429), berarti pool bersama sedang mengalami permintaan tinggi dari banyak pengguna sekaligus. Anda harus
menerapkan mekanisme percobaan ulang di aplikasi Anda, karena ketersediaan dapat berubah
dengan cepat.
Kapasitas yang Dicadangkan
Untuk aplikasi produksi penting yang memerlukan performa yang konsisten dan biaya yang dapat diprediksi, Anda dapat menggunakan Throughput yang Disediakan. Throughput yang Disediakan adalah langganan biaya tetap yang mencadangkan jumlah throughput tertentu untuk model Anda di lokasi yang dipilih.
Kuota untuk layanan AI Generatif
Vertex AI menawarkan serangkaian layanan AI generatif, seperti penyesuaian model, evaluasi model, prediksi batch, penyematan, dan retrieval augmented generation. Untuk mempelajari lebih lanjut kuota untuk layanan ini, lihat Kuota dan batas sistem AI Generatif di Vertex AI.
Langkah berikutnya
- Pelajari lebih lanjut Kuota Bersama Dinamis.
- Pelajari lebih lanjut Throughput yang Disediakan.
- Pelajari lebih lanjut kuota AI generatif dan batas sistem.
- Pelajari lebih lanjut kuota Google Cloud.