Model Armor는 다음과 같은 다양한 서비스와 통합됩니다. Google Cloud
- Google Kubernetes Engine(GKE) 및 Service Extensions
- Vertex AI
- Gemini Enterprise
- Google Cloud MCP 서버 (미리보기)
GKE 및 Service Extensions
Model Armor는 Service Extensions를 통해 GKE와 통합할 수 있습니다. Service Extensions를 사용하면 트래픽을 처리하기 위해 내부(Google Cloud 서비스) 또는 외부(사용자 관리형) 서비스를 통합할 수 있습니다. GKE 추론 게이트웨이를 비롯한 애플리케이션 부하 분산기에서 서비스 확장 프로그램을 구성하여 GKE 클러스터와 주고받는 트래픽을 검사할 수 있습니다. 이렇게 하면 AI 모델과의 모든 상호작용이 Model Armor로 보호됩니다. 자세한 내용은 GKE와 통합을 참조하세요.
Vertex AI
Model Armor는 최소 기준 설정또는템플릿을 사용하여 Vertex AI에 직접 통합할 수 있습니다.
이 통합은 Gemini 모델 요청과 응답을 검사하고 최소 기준 설정을 위반하는 요청과 응답을 차단합니다. 이 통합은 Vertex AI의 Gemini API 내에서 generateContent 메서드에 대해 프롬프트 및 응답 보호를 제공합니다. 프롬프트 및 대답의 정리 결과를 확인하려면 Cloud Logging을 사용 설정해야 합니다. 자세한 내용은
Vertex AI와 통합을 참조하세요.
Gemini Enterprise
Model Armor는 템플릿을 사용하여 Gemini Enterprise 와 직접 통합할 수 있습니다. Gemini Enterprise는 Model Armor를 통해 사용자와 에이전트, 기본 LLM 간의 상호작용을 라우팅합니다. 즉, 사용자 또는 상담사의 프롬프트와 LLM에서 생성된 대답은 사용자에게 표시되기 전에 Model Armor에서 검사됩니다. 자세한 내용은 Gemini Enterprise와 통합을 참조하세요.
Google Cloud MCP 서버
Model Armor는 데이터를 보호하고 모델 컨텍스트 프로토콜 (MCP) 도구 및 서버를 노출하는 Google Cloud 서비스에 요청을 보낼 때 콘텐츠를 보호하도록 구성할 수 있습니다. Model Armor는 최소 기준 설정을 사용하여 MCP 도구 호출 및 응답을 정리하여 에이전트 AI 애플리케이션을 보호합니다. 이 프로세스는 프롬프트 인젝션 및 민감한 정보 공개와 같은 위험을 완화합니다. 자세한 내용은 Google Cloud MCP 서버와 통합을 참조하세요.
Google Cloud시작하기 전에
API 사용 설정
Model Armor를 사용하려면 먼저 Model Armor API를 사용 설정해야 합니다.
콘솔
Model Armor API를 사용 설정합니다.
API 사용 설정에 필요한 역할
API를 사용 설정하려면
serviceusage.services.enable권한이 포함된 서비스 사용량 관리자 IAM 역할(roles/serviceusage.serviceUsageAdmin)이 필요합니다. 역할 부여 방법 알아보기Model Armor를 활성화할 프로젝트를 선택합니다.
gcloud
시작하기 전에 Model Armor API와 함께 Google Cloud CLI를 사용하여 다음 단계를 따르세요.
콘솔에서 Cloud Shell을 활성화합니다. Google Cloud
콘솔 하단에 Cloud Shell 세션이 시작되고 명령줄 프롬프트가 표시됩니다. Google Cloud Cloud Shell은 Google Cloud CLI가 사전 설치된 셸 환경으로, 현재 프로젝트의 값이 이미 설정되어 있습니다. 세션이 초기화되는 데 몇 초 정도 걸릴 수 있습니다.
-
다음 명령어를 실행하여 Model Armor 서비스의 API 엔드포인트를 설정합니다.
gcloud config set api_endpoint_overrides/modelarmor "https://modelarmor.LOCATION.rep.googleapis.com/"
LOCATION을 Model Armor를 사용하려는 리전으로 바꿉니다.
할당량 관리
Model Armor는 공정한 사용을 보장하고 시스템 안정성을 보호하기 위해 할당량 시스템 을 사용합니다. Model Armor API의 기본 할당량은 프로젝트당 QPM 1,200개입니다. 프로젝트당 0~1,200 QPM의 값을 적용할 수 있습니다. 조정을 요청하려면 할당량 조정 요청을 참조하세요. 기본 할당량보다 더 많은 할당량이 필요한 경우 Cloud Customer Care에 문의하세요.
Model Armor 할당량은 다른 서비스와 통합할 때 중요한 고려사항이 필요합니다. 상호작용하는 기본 할당량은 프로젝트당 분당 API 요청 수입니다.
- Model Armor 기본 할당량: 서비스에서 분석을 위해 Model Armor API를 호출하면 (예: 프롬프트 또는 응답 확인) 프로젝트의 Model Armor API 할당량이 사용됩니다.
- 통합 서비스 할당량: Model Armor 할당량은 통합 서비스와 연결된 할당량과 별개입니다. 요청 경로에 있는 모든 서비스에 충분한 할당량이 있는지 확인해야 합니다. 애플리케이션의 콘텐츠를 정리하기 위해 Model Armor API에 대한 모든 호출은 Model Armor API 할당량 한도에 포함됩니다.
할당량 초과 상황 알아보기
애플리케이션 로그에 Model Armor의 오류(일반적으로 HTTP 429 RESOURCE_EXHAUSTED 오류)가 표시되면 Model Armor 할당량 한도에 도달한 것입니다. 이는 요청이 너무 많음을 나타냅니다.
할당량 요구사항 예측
요청할 Model Armor 할당량을 결정하려면 다음 단계를 따르세요.
- 서비스에서 Model Armor로 보낼 분당 최대 요청 수를 예측합니다.
- 서비스와의 사용자 상호작용당 Model Armor가 호출되는 횟수를 고려합니다 (예: 프롬프트에 한 번, 응답에 한 번).
- 최대 동시 사용자 또는 세션 수를 고려합니다.
- 예상치 못한 급증을 처리하기 위해 적절한 버퍼 (예: 예상 최대치보다 20~30% 높음)로 할당량을 요청합니다.
- 최대한 정확하게 예측하여 시작하고 출시 후 사용량을 면밀히 모니터링하며 필요에 따라 추가 조정을 요청합니다.
예를 들어 분당 500명의 사용자가 예상되고 각 사용자 상호작용에서 Model Armor를 두 번 호출하는 경우 (프롬프트 및 응답) 최소 1,000 QPM이 필요합니다. 버퍼를 고려하여 1,200~1,300 QPM을 요청하는 것이 좋습니다.
다른 서비스의 할당량을 모니터링하고 관리해야 합니다. Model Armor 할당량이 충분하더라도 다른 서비스의 할당량이 부족하면 애플리케이션에 영향을 미칩니다.
Model Armor 통합 시 옵션
Model Armor는 다음과 같은 통합 옵션을 제공합니다. 각 옵션은 서로 다른 특징과 기능을 제공합니다.
| 통합 옵션 | 정책 시행자/감지기 | 감지 구성 | 검사 전용 | 검사 및 차단 | 모델 및 클라우드 범위 |
|---|---|---|---|---|---|
| REST API | 검사 프로그램 | 템플릿만 사용 | 예 | 예 | 모든 모델 및 모든 클라우드 |
| Vertex AI | 인라인 적용 | 최소 기준 설정 또는 템플릿 사용 | 예 | 예 | Google Cloud의 Gemini(비스트리밍) |
| Google Kubernetes Engine | 인라인 적용 | 템플릿만 사용 | 예 | 예 | OpenAI 형식의 모델( Google Cloud1) |
| Gemini Enterprise | 인라인 적용 | 템플릿만 사용 | 예 | 예 | 모든 모델 및 모든 클라우드 |
| Google Cloud MCP 서버 (미리보기) | 인라인 적용 | 최소 기준 설정만 사용 | 예 | 예 | MCP(1) Google Cloud |
1Anthropic Claude, Mistral AI, Grok을 비롯한 여러 인기 모델이 OpenAI 사양을 지원합니다. 이러한 모델은 일반적으로 필요한 OpenAI 호환 API 레이어를 제공하는 vLLM과 같은 추론 엔진을 사용하여 배포됩니다. vLLM은 Meta Llama 시리즈, DeepSeek, Mistral 및 Mixtral 제품군, Gemma를 비롯한 광범위한 모델을 지원합니다.
REST API 통합 옵션의 경우 Model Armor는 템플릿을 사용하는 감지기 역할만 합니다. 즉, 잠재적인 정책 위반을 적극적으로 방지하기보다는 사전 정의된 템플릿을 기반으로 식별하고 보고합니다. Model Armor API와 통합할 때 애플리케이션은 제공된 보안 평가 결과를 기반으로 작업을 차단하거나 허용하는 데 출력을 사용할 수 있습니다. Model Armor API는 특히 AI/LLM 상호 작용의 경우 API 트래픽과 관련된 잠재적 위협이나 정책 위반에 대한 정보를 반환합니다. 애플리케이션은 Model Armor API를 호출하고 응답에서 수신한 정보를 사용하여 사전 정의된 커스텀 로직에 따라 결정을 내리고 조치를 취할 수 있습니다.
Vertex AI 통합 옵션을 사용하면 Model Armor가 최소 기준 설정 또는 템플릿을 사용하여 인라인 적용을 제공합니다. 즉, Model Armor는 애플리케이션 코드를 수정하지 않고도 프로세스에 직접 개입하여 정책을 적극적으로 적용합니다.
GKE 및 Gemini Enterprise 통합은 인라인 정책 적용에 템플릿만 사용합니다. 즉, Model Armor는 GKE 추론 게이트웨이 내에서와 Gemini Enterprise 인스턴스 내에서 사용자 또는 에이전트 상호작용 중에 애플리케이션 코드를 수정하지 않고도 정책을 직접 적용할 수 있습니다.
Model Armor 및 Gemini Enterprise 통합은 초기 사용자 프롬프트와 최종 에이전트 또는 모델 응답만 정리합니다. 초기 사용자 프롬프트와 최종 응답 생성 사이에 발생하는 중간 단계는 이 통합에 포함되지 않습니다.
Security Command Center의 Model Armor
Model Armor는 프롬프트 인젝션, 탈옥 시도, 악성 URL, 유해한 콘텐츠를 비롯한 다양한 위협에 대해 LLM 프롬프트와 응답을 검사합니다. Model Armor는 구성된 최소 기준 설정 위반을 감지하면 프롬프트 또는 응답을 차단하고 Security Command Center에 발견 항목을 전송합니다. 자세한 내용은 Model Armor 발견 항목을 참조하세요.