Lorsque vous faites évoluer vos applications d'IA et que vous rencontrez des volumes de trafic élevés, il est essentiel de concevoir des solutions résilientes et performantes. Cette section décrit les bonnes pratiques à suivre pour utiliser Model Armor efficacement dans des environnements exigeants.
Quotas et limites du système
Model Armor inclut des quotas et des limites système pour garantir une utilisation équitable et la stabilité du système.
- Demander une augmentation de quota : si vous prévoyez un trafic plus important, contactez Cloud Customer Care pour demander un ajustement du quota de l'API Model Armor.
- Comprendre les limites du système : concevez votre application pour qu'elle gère ces limites de manière fluide, en divisant éventuellement les entrées plus volumineuses si nécessaire. Pour connaître les valeurs spécifiques, consultez la section Quotas et limites du système.
Concevoir des solutions à haute disponibilité et résilientes
- Nouvelles tentatives côté client avec intervalle exponentiel entre les tentatives : mettez en œuvre gestion des exceptions robuste dans vos clients. Pour les erreurs que vous pouvez réessayer, par exemple les limites de débit ou les erreurs de serveur, utilisez une stratégie d'intervalle exponentiel entre les tentatives. Cela évite de surcharger le service en cas de problèmes temporaires. Pour en savoir plus, consultez la section Stratégie de nouvelles tentatives.
- Stratégies de mise en cache : le cas échéant, mettez en cache les réponses Model Armor pour les mêmes invites, en particulier pour les interactions courantes ou moins sensibles. Tenez compte de la fraîcheur des données et des implications en termes de sécurité lors de la mise en cache.
- Traitement asynchrone : pour les charges de travail non interactives, envisagez de traiter les requêtes de manière asynchrone. Mettez les requêtes en file d'attente et traitez-les à un rythme qui respecte les limites de l'API et lisse les pics de trafic.
- Dégradation progressive : concevez votre application pour qu'elle gère l'indisponibilité ou les erreurs potentielles de Model Armor. Envisagez de mettre en œuvre un mécanisme de secours ou de contourner temporairement certaines vérifications tout en enregistrant l'échec.
Optimiser les performances
- Réduire la taille de la charge utile : n'envoyez que les données nécessaires à Model Armor pour l'analyse. Évitez les invites ou les fichiers inutilement volumineux.
- Optimiser la configuration des modèles : configurez vos modèles Model Armor pour n'inclure que les filtres et les paramètres essentiels à votre cas d'utilisation. L'activation de détecteurs inutiles peut augmenter la latence.
- Conserver l'application, les données et les requêtes dans la même région : déployez votre application et utilisez les points de terminaison Model Armor dans la même région pour réduire la latence du réseau. Pour en savoir plus, consultez la section Emplacements de Model Armor.
Surveillance et alertes
- Configurer des alertes : configurez des alertes dans Cloud Monitoring pour être averti lorsque vous approchez des limites de quota ou que vous rencontrez des taux d'erreur élevés avec l' API Model Armor.
- Analyser les journaux : utilisez Cloud Logging pour analyser les modèles d'utilisation, les erreurs et les métriques de performances de Model Armor. L'analyse des journaux peut vous aider à identifier les goulots d'étranglement ou les domaines à optimiser. Pour en savoir plus, consultez la section Filtrer les journaux.