Prácticas recomendadas para el escalamiento y el tráfico alto

A medida que escalas tus aplicaciones basadas en IA y te encuentras con volúmenes de tráfico altos, es fundamental diseñar para la resiliencia y el rendimiento. En esta sección, se describen las prácticas recomendadas para usar Model Armor de manera eficaz en entornos exigentes.

Cuotas y límites del sistema

Model Armor incluye cuotas y límites del sistema para garantizar un uso justo y la estabilidad del sistema.

  • Solicita aumentos de cuota: Si prevés un mayor tráfico, comunícate con Atención al cliente de Cloud para solicitar un ajuste de la cuota de la API de Model Armor.
  • Comprende los límites del sistema: Diseña tu aplicación para que controle estos límites de forma correcta, posiblemente dividiendo las entradas más grandes si es necesario. Para conocer los valores específicos, consulta Cuotas y límites del sistema.

Diseño para alta resiliencia y tráfico

  • Reintentos del cliente con retirada exponencial: Implementa un manejo de errores sólido en tus clientes. Para los errores que puedes volver a intentar, por ejemplo, límites de frecuencia o errores del servidor, usa una estrategia de retirada exponencial. Esto evita que el servicio se sobrecargue durante problemas transitorios. Para obtener más información, consulta Estrategia de reintento.
  • Estrategias de almacenamiento en caché: Si corresponde, almacena en caché las respuestas de Model Armor para instrucciones idénticas, en especial para las interacciones comunes o menos sensibles. Ten en cuenta la actualización de los datos y las implicaciones de seguridad cuando almacenes datos en caché.
  • Procesamiento asíncrono: Para las cargas de trabajo no interactivas, considera procesar las solicitudes de forma asíncrona. Pone en cola las solicitudes y las procesa a una velocidad que respeta los límites de la API y suaviza los aumentos repentinos de tráfico.
  • Degradación elegante: Diseña tu aplicación para que controle la posible falta de disponibilidad o los errores de Model Armor. Considera implementar un mecanismo de resguardo o omitir temporalmente ciertas verificaciones mientras registras la falla.

Optimiza el rendimiento

  • Minimiza el tamaño de la carga útil: Solo envía los datos necesarios a Model Armor para el análisis. Evita las instrucciones o los archivos innecesariamente grandes.
  • Optimiza la configuración de la plantilla: Configura tus plantillas de Model Armor para que solo incluyan los filtros y la configuración esenciales para tu caso de uso. Habilitar detectores innecesarios puede aumentar la latencia.
  • Mantén la aplicación, los datos y las solicitudes en la misma región: Implementa tu aplicación y usa los endpoints de Model Armor en la misma región para minimizar la latencia de la red. Para obtener más información, consulta Ubicaciones de Model Armor.

Supervisión y alertas

  • Configura alertas: Configura alertas en Cloud Monitoring para que te notifiquen cuando te acerques a los límites de cuota o experimentes tasas de error altas de la API de Model Armor.
  • Analiza los registros: Usa Cloud Logging para analizar los patrones de uso, los errores y las métricas de rendimiento de Model Armor. Analizar los registros puede ayudar a identificar cuellos de botella o áreas de optimización. Para obtener más información, consulta Cómo filtrar registros.