A medida que escalas tus aplicaciones basadas en IA y te encuentras con volúmenes de tráfico altos, es fundamental diseñar para la resiliencia y el rendimiento. En esta sección, se describen las prácticas recomendadas para usar Model Armor de manera eficaz en entornos exigentes.
Cuotas y límites del sistema
Model Armor incluye cuotas y límites del sistema para garantizar un uso justo y la estabilidad del sistema.
- Solicita aumentos de cuota: Si prevés un mayor tráfico, comunícate con Atención al cliente de Cloud para solicitar un ajuste de la cuota de la API de Model Armor.
- Comprende los límites del sistema: Diseña tu aplicación para que controle estos límites de forma correcta, posiblemente dividiendo las entradas más grandes si es necesario. Para conocer los valores específicos, consulta Cuotas y límites del sistema.
Diseño para alta resiliencia y tráfico
- Reintentos del cliente con retirada exponencial: Implementa un manejo de errores sólido en tus clientes. Para los errores que puedes volver a intentar, por ejemplo, límites de frecuencia o errores del servidor, usa una estrategia de retirada exponencial. Esto evita que el servicio se sobrecargue durante problemas transitorios. Para obtener más información, consulta Estrategia de reintento.
- Estrategias de almacenamiento en caché: Si corresponde, almacena en caché las respuestas de Model Armor para instrucciones idénticas, en especial para las interacciones comunes o menos sensibles. Ten en cuenta la actualización de los datos y las implicaciones de seguridad cuando almacenes datos en caché.
- Procesamiento asíncrono: Para las cargas de trabajo no interactivas, considera procesar las solicitudes de forma asíncrona. Pone en cola las solicitudes y las procesa a una velocidad que respeta los límites de la API y suaviza los aumentos repentinos de tráfico.
- Degradación elegante: Diseña tu aplicación para que controle la posible falta de disponibilidad o los errores de Model Armor. Considera implementar un mecanismo de resguardo o omitir temporalmente ciertas verificaciones mientras registras la falla.
Optimiza el rendimiento
- Minimiza el tamaño de la carga útil: Solo envía los datos necesarios a Model Armor para el análisis. Evita las instrucciones o los archivos innecesariamente grandes.
- Optimiza la configuración de la plantilla: Configura tus plantillas de Model Armor para que solo incluyan los filtros y la configuración esenciales para tu caso de uso. Habilitar detectores innecesarios puede aumentar la latencia.
- Mantén la aplicación, los datos y las solicitudes en la misma región: Implementa tu aplicación y usa los endpoints de Model Armor en la misma región para minimizar la latencia de la red. Para obtener más información, consulta Ubicaciones de Model Armor.
Supervisión y alertas
- Configura alertas: Configura alertas en Cloud Monitoring para que te notifiquen cuando te acerques a los límites de cuota o experimentes tasas de error altas de la API de Model Armor.
- Analiza los registros: Usa Cloud Logging para analizar los patrones de uso, los errores y las métricas de rendimiento de Model Armor. Analizar los registros puede ayudar a identificar cuellos de botella o áreas de optimización. Para obtener más información, consulta Cómo filtrar registros.