伸缩和高流量的最佳实践

随着 AI 应用的扩缩和流量的增加,在设计时确保弹性和性能至关重要。本部分概述了在严苛的环境中有效使用 Model Armor 的最佳实践。

配额和系统限制

Model Armor 包含配额和系统限制,以确保公平使用和系统稳定性。

  • 申请增加配额:如果您预计流量会增加,请与 Cloud Customer Care 联系,申请调整 Model Armor API 配额。
  • 了解系统限制:设计应用时要能妥善处理这些限制,必要时可将较大的输入内容分块。如需了解具体值,请参阅配额和系统限制

围绕高流量和恢复能力进行设计

  • 使用指数退避算法进行客户端重试:在客户端中实现强大的错误处理机制。对于可以重试的错误(例如速率限制或服务器错误),请使用指数退避算法策略。这可防止在出现暂时性问题时服务过载。如需了解详情,请参阅重试策略
  • 缓存策略:如果适用,请缓存针对相同提示的 Model Armor 响应,尤其是在常见或不太敏感的互动中。在缓存时,请注意数据新鲜度和安全性影响。
  • 异步处理:对于非交互式工作负载,请考虑异步处理请求。将请求排入队列,并以符合 API 限制的速率处理这些请求,从而平缓流量高峰。
  • 优雅降级:设计应用以处理可能出现的 Model Armor 不可用或错误情况。考虑实现回退机制或暂时绕过某些检查,同时记录失败情况。

优化性能

  • 尽量减小载荷大小:仅将必要的数据发送给 Model Armor 进行分析。避免使用过大的提示或文件。
  • 优化模板配置:配置 Model Armor 模板,使其仅包含您的使用情形所需的过滤条件和设置。启用不必要的检测器可能会增加延迟时间。
  • 将应用、数据和请求保留在同一区域:在同一区域中部署应用并使用 Model Armor 端点,以最大限度地缩短网络延迟时间。如需了解详情,请参阅 Model Armor 位置

监控和提醒

  • 设置提醒:在 Cloud Monitoring 中配置提醒,以便在您即将达到配额限制或 Model Armor API 出现高错误率时收到通知。
  • 分析日志:使用 Cloud Logging 分析 Model Armor 使用情况模式、错误和性能指标。分析日志有助于发现瓶颈或有待优化的方面。如需了解详情,请参阅过滤日志