Saat Anda menskalakan aplikasi AI dan menghadapi volume traffic yang tinggi, Anda harus mendesain aplikasi untuk ketahanan dan performa. Bagian ini menguraikan praktik terbaik untuk menggunakan Model Armor secara efektif di lingkungan yang menuntut.
Kuota dan batas sistem
Model Armor mencakup kuota dan batas sistem untuk memastikan penggunaan yang adil dan stabilitas sistem.
- Minta penambahan kuota: Jika Anda memperkirakan traffic yang lebih tinggi, hubungi Cloud Customer Care untuk meminta penyesuaian kuota Model Armor API.
- Pahami batas sistem: Desain aplikasi Anda untuk menangani batas ini dengan baik, mungkin dengan membagi input yang lebih besar jika perlu. Untuk nilai tertentu, lihat Kuota dan batas sistem.
Mendesain untuk traffic tinggi dan ketahanan
- Percobaan ulang sisi klien dengan backoff eksponensial: Terapkan penanganan error yang andal di klien Anda. Untuk error yang dapat Anda coba lagi, misalnya, batas kecepatan atau error server, gunakan strategi backoff eksponensial. Hal ini mencegah layanan menjadi kewalahan selama masalah sementara. Untuk mengetahui informasi selengkapnya, lihat Strategi percobaan ulang.
- Strategi caching: Jika berlaku, cache respons Model Armor untuk perintah yang identik, terutama untuk interaksi umum atau yang kurang sensitif. Perhatikan keaktualan data dan implikasi keamanan saat melakukan caching.
- Pemrosesan asinkron: Untuk workload non-interaktif, pertimbangkan untuk memproses permintaan secara asinkron. Mengantrekan permintaan dan memprosesnya dengan kecepatan yang mematuhi batas API dan meratakan lonjakan traffic.
- Degradasi yang baik: Desain aplikasi Anda untuk menangani potensi ketidaktersediaan atau error Model Armor. Pertimbangkan untuk menerapkan mekanisme penggantian atau melewati pemeriksaan tertentu untuk sementara sambil mencatat kegagalan.
Optimalkan performa
- Minimalkan ukuran payload: Hanya kirim data yang diperlukan ke Model Armor untuk analisis. Hindari perintah atau file yang terlalu besar.
- Mengoptimalkan konfigurasi template: Konfigurasi template Model Armor Anda agar hanya menyertakan filter dan setelan yang penting untuk kasus penggunaan Anda. Mengaktifkan detektor yang tidak perlu dapat meningkatkan latensi.
- Menyimpan aplikasi, data, dan permintaan di region yang sama: Deploy aplikasi Anda dan gunakan endpoint Model Armor di region yang sama untuk meminimalkan latensi jaringan. Untuk mengetahui informasi selengkapnya, lihat Lokasi Model Armor.
Pemantauan dan pemberitahuan
- Siapkan pemberitahuan: Konfigurasi pemberitahuan di Cloud Monitoring untuk memberi tahu Anda saat Anda mendekati batas kuota atau mengalami rasio error yang tinggi dari Model Armor API.
- Menganalisis log: Gunakan Cloud Logging untuk menganalisis pola penggunaan, error, dan metrik performa Model Armor. Menganalisis log dapat membantu mengidentifikasi hambatan atau area yang perlu dioptimalkan. Untuk mengetahui informasi selengkapnya, lihat Memfilter log.