확장 및 높은 트래픽을 위한 권장사항

AI 애플리케이션을 확장하고 트래픽 볼륨이 많아지면 복원력과 성능을 고려하여 설계하는 것이 중요합니다. 이 섹션에서는 까다로운 환경에서 Model Armor를 효과적으로 사용하는 권장사항을 설명합니다.

할당량 및 시스템 한도

Model Armor에는 공정한 사용과 시스템 안정성을 보장하기 위한 할당량 및 시스템 한도가 포함되어 있습니다.

  • 할당량 증가 요청: 트래픽이 증가할 것으로 예상되는 경우 Cloud Customer Care 에 문의하여 Model Armor API 할당량 조정을 요청하세요.
  • 시스템 한도 이해: 필요한 경우 더 큰 입력을 청크로 나누어 이러한 한도를 원활하게 처리하도록 애플리케이션을 설계합니다. 구체적인 값은 할당량 및 시스템 한도를 참조하세요.

높은 트래픽 및 복원력을 위한 설계

  • 지수 백오프를 사용한 클라이언트 측 재시도: 클라이언트에 강력한 오류 처리를 구현합니다. 재시도할 수 있는 오류(예: 비율 제한 또는 서버 오류)의 경우 지수 백오프 전략을 사용합니다. 이렇게 하면 일시적인 문제로 인해 서비스가 과부하되는 것을 방지할 수 있습니다. 자세한 내용은 재시도 전략을 참조하세요.
  • 캐싱 전략: 동일한 프롬프트에 대한 Model Armor 응답을 캐시합니다(해당하는 경우). 특히 일반적인 상호작용이나 민감도가 낮은 상호작용의 경우에 해당합니다. 캐싱할 때는 데이터 최신 상태와 보안 영향을 고려하세요.
  • 비동기 처리: 비대화형 워크로드의 경우 요청을 비동기적으로 처리하는 것이 좋습니다. 요청을 대기열에 추가하고 API 한도를 준수하고 트래픽 급증을 완화하는 비율로 처리합니다.
  • 단계적 성능 저하: 잠재적인 Model Armor 사용 불가능 또는 오류를 처리하도록 애플리케이션을 설계합니다. 실패를 로깅하는 동안 대체 메커니즘을 구현하거나 특정 검사를 일시적으로 우회하는 것이 좋습니다.

성능 최적화

  • 페이로드 크기 최소화: 분석을 위해 필요한 데이터만 Model Armor로 전송합니다. 불필요하게 큰 프롬프트나 파일을 사용하지 마세요.
  • 템플릿 구성 최적화: 사용 사례에 필수적인 필터와 설정만 포함하도록 Model Armor 템플릿을 구성합니다. 불필요한 감지기를 사용 설정하면 지연 시간이 늘어날 수 있습니다.
  • 애플리케이션, 데이터, 요청을 동일한 리전에 유지: 네트워크 지연 시간을 최소화하려면 애플리케이션을 배포하고 동일한 리전에서 Model Armor 엔드포인트를 사용합니다. 자세한 내용은 Model Armor 위치를 참조하세요.

모니터링 및 알림

  • 알림 설정: 할당량 한도에 도달하거나 Model Armor API에서 높은 오류율이 발생하는 경우 알림을 보내도록 Cloud Monitoring에서 알림을 구성합니다.
  • 로그 분석: Cloud Logging을 사용하여 Model Armor 사용 패턴, 오류, 성능 측정항목을 분석합니다. 로그를 분석하면 병목 현상이나 최적화할 영역을 식별하는 데 도움이 됩니다. 자세한 내용은 로그 필터링을 참조하세요.