주요 개념

이 페이지에서는 Model Armor의 핵심 개념에 대한 정보를 제공합니다.

Model Armor 템플릿

Model Armor 템플릿을 사용하면 Model Armor가 프롬프트와 응답을 어떻게 검사할지 구성할 수 있습니다. 템플릿은 다양한 안전 및 보안 신뢰도 수준에 대해 맞춤설정된 필터와 기준점으로 구성된 세트로 작동하며 어떤 콘텐츠가 플래그 지정되는지를 제어할 수 있게 합니다.

기준점은 신뢰도 수준을 나타냅니다. 즉, Model Armor가 프롬프트 또는 응답에 불쾌감을 주는 콘텐츠가 포함되어 있다고 판단하는 확신의 정도를 의미합니다. 예를 들어 증오 콘텐츠 프롬프트를 HIGH 기준점으로 필터링하는 템플릿을 만들면, Model Armor가 프롬프트에 증오 콘텐츠가 포함되어 있다고 높은 신뢰도로 판단할 때만 플래그를 지정합니다. 반면, LOW_AND_ABOVE 기준점은 해당 클레임을 할 때의 모든 신뢰도 수준(LOW, MEDIUM, HIGH)을 나타냅니다.

Model Armor 필터

Model Armor는 안전하고 보안성이 높은 AI 모델을 제공할 수 있도록 다양한 필터를 제공합니다. 필터 카테고리는 다음과 같습니다.

책임감 있는 AI 안전성 필터

프롬프트와 응답은 다음 카테고리에 대해 앞에서 언급한 신뢰도 수준에서 검사될 수 있습니다.

카테고리 정의
증오심 표현 ID 또는 보호 속성을 대상으로 하는 부정적이거나 유해한 댓글
괴롭힘 다른 사람을 대상으로 위협하거나 협박하거나 괴롭히거나 모욕하는 댓글
선정적 성행위 또는 기타 외설적인 콘텐츠에 대한 참조가 포함
위험한 콘텐츠 유해한 상품, 서비스, 활동 홍보 및 이에 대한 액세스 지원

아동 성적 학대 콘텐츠(CSAM) 필터는 기본적으로 적용되며 사용 중지할 수 없습니다.

프롬프트 인젝션 및 탈옥 감지

프롬프트 인젝션은 공격자가 텍스트 입력(프롬프트) 안에 특수 명령어를 삽입하여 AI 모델을 속이는 보안 취약점입니다. 이를 통해 AI가 일반적인 지침을 무시하거나, 민감한 정보를 노출하거나, 설계되지 않은 동작을 수행하도록 만들 수 있습니다. LLM 맥락에서 탈옥은 모델 내부에 구축된 안전 프로토콜과 윤리 지침을 우회하는 행위를 의미합니다. 이를 통해 LLM은 원래 생성하지 않도록 설계된 유해하거나 비윤리적이거나 위험한 콘텐츠와 같은 응답을 생성할 수 있습니다.

프롬프트 인젝션 및 탈옥 감지가 사용 설정되면 Model Armor는 프롬프트와 응답을 검사하여 악의적인 콘텐츠를 감지합니다. 감지되면 Model Armor는 해당 프롬프트 또는 응답을 차단합니다.

Sensitive Data Protection

개인의 이름이나 주소와 같은 민감한 정보는 의도치 않게 또는 의도적으로 모델에 포함되어 입력되거나 모델의 응답에 포함될 수 있습니다.

Sensitive Data Protection은 민감한 정보를 발견하고 분류하며, 익명화하는 데 도움을 주는 Google Cloud 서비스입니다. Sensitive Data Protection은 민감한 요소, 해당 요소의 맥락, 관련 문서를 식별하여 AI 워크로드로 들어오거나 나가는 데이터에서 발생할 수 있는 데이터 유출 위험을 줄여줍니다. Model Armor 내에서 Sensitive Data Protection을 직접 사용하여 민감한 요소를 변환, 토큰화, 마스킹하면서 민감하지 않은 문맥은 유지할 수 있습니다. Model Armor는 기존 검사 템플릿을 사용할 수 있습니다. 검사 템플릿은 비즈니스 및 규정 준수 요구사항에 맞춰 민감한 정보를 스캔하고 식별하는 과정을 간소화하는 일종의 청사진 역할을 합니다. 이를 통해 Sensitive Data Protection을 사용하는 다른 워크로드와의 일관성과 상호 운용성을 확보할 수 있습니다.

Model Armor는 Sensitive Data Protection 구성을 위해 두 가지 모드를 제공합니다.

  • 기본 Sensitive Data Protection 구성: 이 모드는 스캔할 민감한 정보 유형을 직접 지정하는 비교적 간단한 Sensitive Data Protection 구성 방식을 제공합니다. 이 모드는 CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS, GCP_API_KEY의 6가지 카테고리를 지원합니다. 기본 구성은 검사 작업만 지원하며, Sensitive Data Protection 템플릿은 사용할 수 없습니다. 자세한 내용은 기본 Sensitive Data Protection 구성을 참조하세요.

  • 고급 Sensitive Data Protection 구성: 이 모드는 Sensitive Data Protection 템플릿 사용을 가능하게 하여, 더 높은 유연성과 맞춤설정 기능을 제공합니다. Sensitive Data Protection 템플릿은 보다 세밀한 감지 규칙과 익명화 기법을 지정할 수 있는 사전 정의된 구성입니다. 고급 구성에서는 검사와 익명화 작업을 모두 지원합니다.

Sensitive Data Protection에서도 신뢰도 수준을 설정할 수 있지만, 이 신뢰도는 다른 필터의 신뢰도 수준과 약간 다르게 작동합니다. Sensitive Data Protection의 신뢰도에 대한 자세한 내용은 Sensitive Data Protection 일치 가능성을 참조하세요. Sensitive Data Protection에 대한 자세한 내용은 Sensitive Data Protection 개요를 참조하세요.

악성 URL 탐지

악성 URL은 합법적인 것처럼 위장되는 경우가 많아, 피싱 공격, 멀웨어 배포, 기타 온라인 위협에서 강력한 도구로 사용됩니다. 예를 들어 PDF에 악성 URL이 포함되어 있으면 LLM 출력을 처리하는 모든 다운스트림 시스템을 손상시키는 데 악용될 수 있습니다.

악성 URL 감지가 사용 설정되면 Model Armor는 URL을 스캔하여 악성 여부를 식별합니다. 이를 통해 악성 URL이 반환되는 것을 방지하고, 필요한 조치를 취할 수 있습니다.

Model Armor 신뢰도 수준

신뢰도 수준은 책임감 있는 AI 안전 카테고리(즉, 성적으로 노골적인 콘텐츠, 위험한 콘텐츠, 괴롭힘, 증오심 표현), 프롬프트 인젝션 및 탈옥, 주제 매칭을 포함한 Sensitive Data Protection에 대해 설정할 수 있습니다.

세분화된 기준점을 지원하는 신뢰도 수준의 경우 Model Armor는 이를 다음과 같이 해석합니다.

  • 높음: 메시지에 해당 콘텐츠가 포함되어 있을 가능성이 높을 때에만 식별합니다.
  • 중간 이상: 메시지에 해당 콘텐츠가 있을 가능성이 중간 또는 높은 경우 식별합니다.
  • 낮음 이상: 메시지에 해당 콘텐츠가 있을 가능성이 낮음, 중간, 높음 중 어느 경우라도 식별합니다.

강제 시행 유형 정의

강제 시행은 위반 사항이 감지된 후 어떤 조치를 취할지 정의합니다. Model Armor가 감지된 위반을 어떻게 처리할지 구성하려면 강제 시행 유형을 설정해야 합니다. Model Armor는 다음과 같은 강제 시행 유형을 제공합니다.

  • 검사만: 구성된 설정을 위반하는 요청을 검사하지만, 이를 차단하지는 않습니다.
  • 검사 및 차단: 구성된 설정을 위반하는 요청을 차단합니다.

Inspect only를 효과적으로 사용하여 의미 있는 인사이트를 얻으려면 Cloud Logging을 사용 설정해야 합니다. Cloud Logging을 사용 설정하지 않으면 Inspect only에서 유용한 정보를 얻을 수 없습니다.

Cloud Logging에서 로그에 액세스합니다. 서비스 이름을 modelarmor.googleapis.com으로 필터링합니다. 템플릿에서 사용 설정한 작업과 관련된 항목을 찾습니다. 자세한 내용은 로그 탐색기를 사용하여 로그 보기를 참조하세요.

PDF 검사

PDF의 텍스트에는 악의적이거나 민감한 콘텐츠가 포함될 수 있습니다. Model Armor는 PDF에 대해 안전성, 프롬프트 인젝션 및 탈옥 시도, 민감한 정보, 악성 URL을 검사할 수 있습니다.

Model Armor 최소 기준 설정

Model Armor 템플릿은 개별 애플리케이션에 유연성을 제공하지만 조직 전체의 모든 AI 애플리케이션에 대해 기본적인 보호 수준을 설정해야 하는 경우가 많습니다. 이러한 상황에서 Model Armor 최소 기준 설정이 사용됩니다. 최소 기준 설정은 Google Cloud 리소스 계층 구조의 특정 지점(조직, 폴더 또는 프로젝트 수준)에서 생성된 모든 템플릿에 대해 최소 요구사항을 정의하는 규칙으로 동작합니다.

자세한 내용은 Model Armor 최소 기준 설정을 참조하세요.

다음 단계