Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Best practice per scalabilità e traffico elevato

Man mano che aumenti le dimensioni delle tue applicazioni di AI e riscontri volumi di traffico elevati, è fondamentale progettare per la resilienza e le prestazioni. Questa sezione descrive le best practice per utilizzare Model Armor in modo efficace in ambienti esigenti.

Quote e limiti di sistema

Model Armor include quote e limiti di sistema per garantire un utilizzo equo e la stabilità del sistema.

Richiedi aumenti della quota: se prevedi un traffico maggiore, contatta l'assistenza clienti Google Cloud per richiedere una modifica della quota dell'API Model Armor.
Comprendi i limiti del sistema: progetta la tua applicazione in modo che gestisca questi limiti in modo appropriato, ad esempio suddividendo gli input più grandi, se necessario. Per valori specifici, consulta Quote e limiti di sistema.

Progetta per un traffico elevato e la resilienza

Ritentativi lato client con backoff esponenziale: implementa una gestione degli errori efficace nei client. Per gli errori che puoi riprovare, ad esempio limiti di frequenza o errori del server, utilizza una strategia di backoff esponenziale. In questo modo si evita di sovraccaricare il servizio durante problemi temporanei. Per saperne di più, consulta Strategia di ripetizione.
Strategie di memorizzazione nella cache: se applicabile, memorizza nella cache le risposte di Model Armor per prompt identici, soprattutto per interazioni comuni o meno sensibili. Tieni presente l'aggiornamento dei dati e le implicazioni per la sicurezza durante la memorizzazione nella cache.
Elaborazione asincrona: per i workload non interattivi, valuta la possibilità di elaborare le richieste in modo asincrono. Metti in coda le richieste ed elaborale a una velocità che rispetti i limiti dell'API e attenui i picchi di traffico.
Degradazione controllata: progetta la tua applicazione in modo che gestisca potenziali indisponibilità o errori di Model Armor. Valuta la possibilità di implementare un meccanismo di fallback o di ignorare temporaneamente determinati controlli durante la registrazione dell'errore.

Ottimizza le prestazioni

Ridurre al minimo le dimensioni del payload: invia solo i dati necessari a Model Armor per l'analisi. Evita prompt o file inutilmente grandi.
Ottimizza la configurazione dei modelli: configura i modelli Model Armor in modo che includano solo i filtri e le impostazioni essenziali per il tuo caso d'uso. L'attivazione di rilevatori non necessari può aumentare la latenza.
Mantieni l'applicazione, i dati e le richieste nella stessa regione: esegui il deployment dell'applicazione e utilizza gli endpoint Model Armor nella stessa regione per ridurre al minimo la latenza di rete. Per maggiori informazioni, vedi Località di Model Armor.

Monitoraggio e avvisi

Configura gli avvisi: configura gli avvisi in Cloud Monitoring per ricevere una notifica quando ti avvicini ai limiti di quota o riscontri tassi di errore elevati dall'API Model Armor.
Analizza i log: utilizza Cloud Logging per analizzare i pattern di utilizzo, gli errori e le metriche delle prestazioni di Model Armor. L'analisi dei log può aiutarti a identificare colli di bottiglia o aree di ottimizzazione. Per saperne di più, consulta Filtrare i log.

Best practice per scalabilità e traffico elevato Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Quote e limiti di sistema

Progetta per un traffico elevato e la resilienza

Ottimizza le prestazioni

Monitoraggio e avvisi

Best practice per scalabilità e traffico elevato