Man mano che aumenti le dimensioni delle tue applicazioni di AI e riscontri volumi di traffico elevati, è fondamentale progettare per la resilienza e le prestazioni. Questa sezione descrive le best practice per utilizzare Model Armor in modo efficace in ambienti esigenti.
Quote e limiti di sistema
Model Armor include quote e limiti di sistema per garantire un utilizzo equo e la stabilità del sistema.
- Richiedi aumenti della quota: se prevedi un traffico maggiore, contatta l'assistenza clienti Google Cloud per richiedere una modifica della quota dell'API Model Armor.
- Comprendi i limiti del sistema: progetta la tua applicazione in modo che gestisca questi limiti in modo appropriato, ad esempio suddividendo gli input più grandi, se necessario. Per valori specifici, consulta Quote e limiti di sistema.
Progetta per un traffico elevato e la resilienza
- Ritentativi lato client con backoff esponenziale: implementa una gestione degli errori efficace nei client. Per gli errori che puoi riprovare, ad esempio limiti di frequenza o errori del server, utilizza una strategia di backoff esponenziale. In questo modo si evita di sovraccaricare il servizio durante problemi temporanei. Per saperne di più, consulta Strategia di ripetizione.
- Strategie di memorizzazione nella cache: se applicabile, memorizza nella cache le risposte di Model Armor per prompt identici, soprattutto per interazioni comuni o meno sensibili. Tieni presente l'aggiornamento dei dati e le implicazioni per la sicurezza durante la memorizzazione nella cache.
- Elaborazione asincrona: per i workload non interattivi, valuta la possibilità di elaborare le richieste in modo asincrono. Metti in coda le richieste ed elaborale a una velocità che rispetti i limiti dell'API e attenui i picchi di traffico.
- Degradazione controllata: progetta la tua applicazione in modo che gestisca potenziali indisponibilità o errori di Model Armor. Valuta la possibilità di implementare un meccanismo di fallback o di ignorare temporaneamente determinati controlli durante la registrazione dell'errore.
Ottimizza le prestazioni
- Ridurre al minimo le dimensioni del payload: invia solo i dati necessari a Model Armor per l'analisi. Evita prompt o file inutilmente grandi.
- Ottimizza la configurazione dei modelli: configura i modelli Model Armor in modo che includano solo i filtri e le impostazioni essenziali per il tuo caso d'uso. L'attivazione di rilevatori non necessari può aumentare la latenza.
- Mantieni l'applicazione, i dati e le richieste nella stessa regione: esegui il deployment dell'applicazione e utilizza gli endpoint Model Armor nella stessa regione per ridurre al minimo la latenza di rete. Per maggiori informazioni, vedi Località di Model Armor.
Monitoraggio e avvisi
- Configura gli avvisi: configura gli avvisi in Cloud Monitoring per ricevere una notifica quando ti avvicini ai limiti di quota o riscontri tassi di errore elevati dall'API Model Armor.
- Analizza i log: utilizza Cloud Logging per analizzare i pattern di utilizzo, gli errori e le metriche delle prestazioni di Model Armor. L'analisi dei log può aiutarti a identificare colli di bottiglia o aree di ottimizzazione. Per saperne di più, consulta Filtrare i log.