Model Armor 개요

Model Armor는 AI 애플리케이션의 보안과 안전을 강화하도록 설계된 Google Cloud 서비스입니다. LLM 프롬프트와 대답을 사전 예방적으로 검사하여 다양한 위험으로부터 보호하고 책임감 있는 AI 관행을 보장합니다. Google Cloud 또는 기타 클라우드 제공업체에 AI를 배포하는 경우 Model Armor를 사용하면 악의적인 입력을 방지하고, 콘텐츠 안전을 확인하고, 민감한 정보를 보호하고, 규정을 준수하고, AI 애플리케이션 전반에서 AI 안전 및 보안 정책을 일관되게 적용할 수 있습니다. Google Cloud

아키텍처

Model Armor 아키텍처 이 아키텍처 다이어그램은 Model Armor를 사용하여 LLM과 사용자를 보호하는 애플리케이션을 보여줍니다. 다음 단계에서는 데이터 흐름을 설명합니다.

  1. 사용자가 애플리케이션에 프롬프트를 제공합니다.
  2. Model Armor는 수신되는 프롬프트에서 민감할 수 있는 콘텐츠를 검사합니다.
  3. 프롬프트(또는 정리된 프롬프트)가 LLM으로 전송됩니다.
  4. LLM이 응답을 생성합니다.
  5. Model Armor는 생성된 응답에서 민감할 수 있는 콘텐츠를 검사합니다.
  6. 응답(또는 정리된 응답)이 사용자에게 전송됩니다. Model Armor는 응답에서 트리거된 필터와 트리거되지 않은 필터에 관한 자세한 설명을 전송합니다.

Model Armor는 입력 (프롬프트)과 출력 (응답)을 모두 필터링하여 LLM이 악의적이거나 민감한 콘텐츠에 노출되거나 이를 생성하지 않도록 합니다.

사용 사례

Model Armor에는 다음과 같은 여러 사용 사례가 있습니다.

  • 보안

    • LLM 프롬프트 또는 응답에서 민감한 지식 재산 (IP) 및 개인 식별 정보 (PII)가 유출될 위험을 완화합니다.
    • 프롬프트 인젝션 및 탈옥 공격으로부터 보호하여 악의적인 행위자가 AI 시스템을 조작하여 의도하지 않은 작업을 실행하지 못하도록 할 수 있습니다.
    • PDF의 텍스트에서 민감하거나 악의적인 콘텐츠를 검사합니다.
  • 안전하고 책임감 있는 AI

    • 챗봇이 경쟁업체 솔루션을 추천하지 못하도록 하여 브랜드 무결성과 고객 충성도를 유지할 수 있습니다.
    • 조직은 위험하거나 증오심을 표현하는 콘텐츠 등 유해한 메시지가 포함된 AI 애플리케이션이 생성한 소셜 미디어 게시물을 필터링할 수 있습니다.

Model Armor 템플릿

Model Armor 템플릿을 사용하면 Model Armor가 프롬프트와 응답을 어떻게 검사할지 구성할 수 있습니다. 템플릿은 다양한 안전 및 보안 신뢰도 수준에 대해 맞춤설정된 필터와 기준점으로 구성된 세트로 작동하며 어떤 콘텐츠가 플래그 지정되는지를 제어할 수 있게 합니다.

기준점은 신뢰도 수준을 나타냅니다. 즉, Model Armor가 프롬프트 또는 대답에 불쾌감을 주는 콘텐츠가 포함되어 있다고 확신하는 정도를 의미합니다. 예를 들어 증오 콘텐츠 프롬프트를 HIGH 기준점으로 필터링하는 템플릿을 만들면, Model Armor가 프롬프트에 증오 콘텐츠가 포함되어 있다고 높은 신뢰도로 판단할 때만 플래그를 지정합니다. 반면, LOW_AND_ABOVE 기준점은 해당 클레임을 할 때의 모든 신뢰도 수준(LOW, MEDIUM, HIGH)을 나타냅니다.

자세한 내용은 Model Armor 템플릿을 참고하세요.

Model Armor 신뢰도 수준

책임감 있는 AI 안전 카테고리 (성적으로 노골적인 콘텐츠, 위험한 콘텐츠, 괴롭힘, 증오심 표현), 프롬프트 인젝션 및 탈옥 감지, 민감한 정보 보호 (주제 매칭 포함)에 대한 신뢰도 수준을 설정할 수 있습니다.

세분화된 기준점을 지원하는 신뢰도 수준의 경우 Model Armor는 이를 다음과 같이 해석합니다.

  • 높음: 메시지에 해당 콘텐츠가 포함되어 있을 가능성이 높을 때에만 식별합니다.
  • 중간 이상: 메시지에 가능성이 중간 또는 높은 콘텐츠가 있는지 식별합니다.
  • 낮음 이상: 메시지에 해당 콘텐츠가 있을 가능성이 낮음, 중간, 높음 중 어느 경우라도 식별합니다.

Model Armor 필터

Model Armor는 안전하고 보안성이 높은 AI 모델을 제공할 수 있도록 다양한 필터를 제공합니다. 다음 필터 카테고리를 사용할 수 있습니다.

책임감 있는 AI 안전성 필터

프롬프트와 응답은 다음 카테고리에 대해 앞에서 언급한 신뢰도 수준에서 검사될 수 있습니다.

카테고리 정의
증오심 표현 ID 또는 보호 속성을 대상으로 하는 부정적이거나 유해한 댓글
괴롭힘 다른 사람을 대상으로 위협하거나 협박하거나 괴롭히거나 모욕하는 댓글
선정적 성행위 또는 기타 외설적인 콘텐츠에 대한 참조가 포함
위험한 콘텐츠 유해한 상품, 서비스, 활동 홍보 및 이에 대한 액세스 지원

아동 성적 학대 콘텐츠(CSAM) 필터는 기본적으로 적용되며 사용 중지할 수 없습니다.

프롬프트 인젝션 및 탈옥 감지

프롬프트 인젝션은 공격자가 텍스트 입력(프롬프트) 안에 특수 명령어를 삽입하여 AI 모델을 속이는 보안 취약점입니다. 이를 통해 AI가 일반적인 지침을 무시하거나, 민감한 정보를 노출하거나, 설계되지 않은 동작을 수행하도록 만들 수 있습니다. LLM 맥락에서 탈옥은 모델 내부에 구축된 안전 프로토콜과 윤리 지침을 우회하는 행위를 의미합니다. 이를 통해 LLM은 원래 생성하지 않도록 설계된 유해하거나 비윤리적이거나 위험한 콘텐츠와 같은 응답을 생성할 수 있습니다.

프롬프트 인젝션 및 탈옥 감지가 사용 설정되면 Model Armor는 프롬프트와 응답을 검사하여 악의적인 콘텐츠를 감지합니다. 감지되면 Model Armor는 해당 프롬프트 또는 응답을 차단합니다.

Sensitive Data Protection

Sensitive Data Protection은 민감한 정보를 발견하고 분류하며, 익명화하는 데 도움을 주는 Google Cloud 서비스입니다. Sensitive Data Protection은 민감한 요소, 해당 요소의 맥락, 관련 문서를 식별하여 AI 워크로드로 들어오거나 나가는 데이터에서 발생할 수 있는 데이터 유출 위험을 줄여줍니다. Model Armor 내에서 Sensitive Data Protection을 직접 사용하여 민감한 요소를 변환, 토큰화, 마스킹하면서 민감하지 않은 문맥은 유지할 수 있습니다. Model Armor는 기존 검사 템플릿을 사용할 수 있습니다. 검사 템플릿은 비즈니스 및 규정 준수 요구사항에 맞춰 민감한 정보를 스캔하고 식별하는 과정을 간소화하는 일종의 청사진 역할을 합니다. 이를 통해 Sensitive Data Protection을 사용하는 다른 워크로드와의 일관성과 상호 운용성을 확보할 수 있습니다.

Model Armor는 Sensitive Data Protection 구성을 위해 두 가지 모드를 제공합니다.

  • 기본 구성: 이 모드에서는 스캔할 민감한 정보 유형을 지정하여 Sensitive Data Protection을 구성합니다. 이 모드는 다음 카테고리를 지원합니다.

    • 신용카드 번호
    • 미국 사회보장번호 (SSN)
    • 금융 계좌 번호
    • 미국 개인 납세자 식별 번호 (ITIN)
    • Google Cloud 사용자 인증 정보
    • Google Cloud API 키

    기본 구성은 검사 작업만 지원하며, Sensitive Data Protection 템플릿은 사용할 수 없습니다. 자세한 내용은 기본 Sensitive Data Protection 구성을 참고하세요.

  • 고급 구성: 이 모드는 Sensitive Data Protection 템플릿을 통해 더 높은 유연성과 맞춤설정 기능을 제공합니다. Sensitive Data Protection 템플릿은 보다 세밀한 감지 규칙과 익명화 기법을 지정할 수 있는 사전 정의된 구성입니다. 고급 구성에서는 검사와 익명화 작업을 모두 지원합니다.

Sensitive Data Protection의 신뢰도 수준은 다른 필터의 신뢰도 수준과 약간 다르게 작동합니다. Sensitive Data Protection의 신뢰도에 대한 자세한 내용은 Sensitive Data Protection 일치 가능성을 참고하세요. Sensitive Data Protection에 대한 자세한 내용은 Sensitive Data Protection 개요를 참조하세요.

악성 URL 탐지

악성 URL은 합법적인 것처럼 위장되는 경우가 많아, 피싱 공격, 멀웨어 배포, 기타 온라인 위협에서 강력한 도구로 사용됩니다. 예를 들어 PDF에 악성 URL이 포함되어 있으면 LLM 출력을 처리하는 모든 다운스트림 시스템을 손상시키는 데 악용될 수 있습니다.

악성 URL 감지가 사용 설정되면 Model Armor는 URL을 스캔하여 악성 여부를 식별합니다. 이를 통해 악성 URL이 반환되는 것을 방지하고, 필요한 조치를 취할 수 있습니다.

강제 시행 유형 정의

강제 시행은 위반 사항이 감지된 후 어떤 조치를 취할지 정의합니다. Model Armor가 감지된 위반을 어떻게 처리할지 구성하려면 강제 시행 유형을 설정해야 합니다. Model Armor는 다음과 같은 강제 시행 유형을 제공합니다.

  • 검사만: Model Armor가 구성된 설정을 위반하는 요청을 검사하지만, 이를 차단하지는 않습니다.
  • 검사 및 차단: Model Armor는 구성된 설정을 위반하는 요청을 차단합니다.

자세한 내용은 템플릿의 시행 유형 정의최소 기준 설정의 시행 유형 정의를 참고하세요.

Inspect only를 효과적으로 사용하여 의미 있는 인사이트를 얻으려면 Cloud Logging을 사용 설정해야 합니다. Cloud Logging을 사용 설정하지 않으면 Inspect only에서 유용한 정보를 얻을 수 없습니다.

Cloud Logging에서 로그에 액세스합니다. 서비스 이름을 modelarmor.googleapis.com으로 필터링합니다. 템플릿에서 사용 설정한 작업과 관련된 항목을 찾습니다. 자세한 내용은 로그 탐색기를 사용하여 로그 보기를 참조하세요.

Model Armor 최소 기준 설정

Model Armor 템플릿은 개별 애플리케이션에 유연성을 제공하지만 조직은 모든 AI 애플리케이션에서 기본 보호 수준을 설정해야 하는 경우가 많습니다. 이러한 상황에서 Model Armor 최소 기준 설정이 사용됩니다. 최소 기준 설정은Google Cloud 리소스 계층 구조의 조직, 폴더 또는 프로젝트 수준에서 생성된 모든 템플릿에 대한 최소 요구사항을 정의하는 규칙으로 동작합니다.

자세한 내용은 Model Armor 최소 기준 설정을 참조하세요.

언어 지원

Model Armor 필터는 여러 언어로 프롬프트와 응답을 정리하는 기능을 지원합니다.

다국어 감지를 사용 설정하는 방법에는 두 가지가 있습니다.

  • 각 요청에 사용 설정: 세분화된 제어를 위해 사용자 프롬프트를 정리하고 모델 응답을 정리할 때 요청별로 다국어 감지를 사용 설정합니다.

  • 일회성 사용 설정: 더 간단한 설정을 선호하는 경우 REST API를 사용하여 Model Armor 템플릿 수준에서 다국어 감지를 일회성 구성으로 사용 설정할 수 있습니다. 자세한 내용은 Model Armor 템플릿 만들기를 참조하세요.

문서 심사

문서의 텍스트에는 악의적이거나 민감한 콘텐츠가 포함될 수 있습니다. Model Armor는 다음 유형의 문서에서 안전, 프롬프트 인젝션 및 탈옥 시도, 민감한 정보, 악성 URL을 검사할 수 있습니다.

  • PDF
  • CSV
  • 텍스트 파일: TXT
  • Microsoft Word 문서: DOCX, DOCM, DOTX, DOTM
  • Microsoft PowerPoint 슬라이드: PPTX, PPTM, POTX, POTM, POT
  • Microsoft Excel 시트: XLSX, XLSM, XLTX, XLTM

가격 책정

Model Armor는 Security Command Center의 통합된 부분으로 구매하거나 독립형 서비스로 구매할 수 있습니다. 가격 정보는 Security Command Center 가격 책정을 참고하세요.

토큰

생성형 AI 모델은 텍스트와 기타 데이터를 토큰이라는 단위로 분할합니다. Model Armor는 가격 책정을 위해 AI 프롬프트 및 응답의 총 토큰 수를 사용합니다. Model Armor는 각 프롬프트 및 대답에서 처리되는 토큰 수를 제한합니다. 토큰 한도는 토큰 한도를 참고하세요.

다음 단계