Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Prácticas recomendadas para el escalamiento y el tráfico alto

A medida que escalas tus aplicaciones basadas en IA y te encuentras con volúmenes de tráfico altos, es fundamental diseñar para la resiliencia y el rendimiento. En esta sección, se describen las prácticas recomendadas para usar Model Armor de manera eficaz en entornos exigentes.

Cuotas y límites del sistema

Model Armor incluye cuotas y límites del sistema para garantizar un uso justo y la estabilidad del sistema.

Solicita aumentos de cuota: Si prevés un mayor tráfico, comunícate con Atención al cliente de Cloud para solicitar un ajuste de la cuota de la API de Model Armor.
Comprende los límites del sistema: Diseña tu aplicación para que controle estos límites de forma correcta, posiblemente dividiendo las entradas más grandes si es necesario. Para conocer los valores específicos, consulta Cuotas y límites del sistema.

Diseño para alta resiliencia y tráfico

Reintentos del cliente con retirada exponencial: Implementa un manejo de errores sólido en tus clientes. Para los errores que puedes volver a intentar, por ejemplo, límites de frecuencia o errores del servidor, usa una estrategia de retirada exponencial. Esto evita que el servicio se sobrecargue durante problemas transitorios. Para obtener más información, consulta Estrategia de reintento.
Estrategias de almacenamiento en caché: Si corresponde, almacena en caché las respuestas de Model Armor para instrucciones idénticas, en especial para las interacciones comunes o menos sensibles. Ten en cuenta la actualización de los datos y las implicaciones de seguridad cuando almacenes datos en caché.
Procesamiento asíncrono: Para las cargas de trabajo no interactivas, considera procesar las solicitudes de forma asíncrona. Pone en cola las solicitudes y las procesa a una velocidad que respeta los límites de la API y suaviza los aumentos repentinos de tráfico.
Degradación elegante: Diseña tu aplicación para que controle la posible falta de disponibilidad o los errores de Model Armor. Considera implementar un mecanismo de resguardo o omitir temporalmente ciertas verificaciones mientras registras la falla.

Optimiza el rendimiento

Minimiza el tamaño de la carga útil: Solo envía los datos necesarios a Model Armor para el análisis. Evita las instrucciones o los archivos innecesariamente grandes.
Optimiza la configuración de la plantilla: Configura tus plantillas de Model Armor para que solo incluyan los filtros y la configuración esenciales para tu caso de uso. Habilitar detectores innecesarios puede aumentar la latencia.
Mantén la aplicación, los datos y las solicitudes en la misma región: Implementa tu aplicación y usa los endpoints de Model Armor en la misma región para minimizar la latencia de la red. Para obtener más información, consulta Ubicaciones de Model Armor.

Supervisión y alertas

Configura alertas: Configura alertas en Cloud Monitoring para que te notifiquen cuando te acerques a los límites de cuota o experimentes tasas de error altas de la API de Model Armor.
Analiza los registros: Usa Cloud Logging para analizar los patrones de uso, los errores y las métricas de rendimiento de Model Armor. Analizar los registros puede ayudar a identificar cuellos de botella o áreas de optimización. Para obtener más información, consulta Cómo filtrar registros.

Prácticas recomendadas para el escalamiento y el tráfico alto Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Cuotas y límites del sistema

Diseño para alta resiliencia y tráfico

Optimiza el rendimiento

Supervisión y alertas

Prácticas recomendadas para el escalamiento y el tráfico alto