안전 (책임감 있는 AI)

Gemini와 같은 생성형 AI 모델은 유해한 콘텐츠를 생성하거나, 민감한 정보를 유출하거나, 오용되는 등의 위험을 완화하기 위해 강력한 안전 조치가 필요합니다. Gemini Enterprise Agent Platform은 Gemini 모델의 종합적인 안전을 구현하기 위한 다양한 도구와 관행을 제공합니다.

잠재적 안전 위험 및 완화 전략

Gemini 모델을 배포할 때는 다양한 잠재적 위험을 식별하고 완화하는 것이 중요합니다. 이러한 위험을 이해하기 위한 선제적 접근 방식을 사용하면 안전 조치를 보다 효과적으로 구현할 수 있습니다. 다음과 같은 위험을 완화하거나 방지할 수 있다는 점에서 다층적인 안전 접근 방식이 매우 중요합니다.

  • 콘텐츠 위험: 유해한 콘텐츠, 욕설 및 성적 콘텐츠, 폭력 및 유혈 콘텐츠가 포함될 수 있습니다.
  • 브랜드 안전성 위험: 생성된 콘텐츠가 브랜드의 어조나 가치와 일치하지 않거나, 경쟁업체 또는 부적절한 제품을 보증하거나, 평판에 손상을 줄 수 있는 콘텐츠를 생성할 수 있습니다.
  • 불일치 위험: 생성된 콘텐츠가 관련성이 없거나 부정확할 수 있습니다.
  • 보안 및 개인 정보 보호 위험: 생성된 콘텐츠가 민감한 학습 데이터 또는 프롬프트를 유출하거나, 적대적인 사용자가 모델이 안전 프로토콜을 재정의하거나 의도하지 않은 방식으로 동작하도록 강제하려고 시도할 수 있습니다.

Google의 배포된 모델은 이러한 잠재적 문제를 해결하기 위해 다양한 기능을 제공합니다.

  • 기본 모델과 구성할 수 없는 필터가 일반적인 안전망을 제공합니다.
  • 시스템 요청 사항 은 선호하는 동작과 피해야 할 주제에 관한 직접적인 안내를 모델에 제공합니다.
  • 콘텐츠 필터 을 사용하면 일반적인 유해 유형에 대한 특정 기준점을 설정할 수 있습니다.
  • 필터로서의 Gemini 는 이전 레이어에서 놓칠 수 있거나 더 많은 컨텍스트 인식 평가가 필요한 복잡하거나 미묘한 안전 문제를 위한 맞춤설정 가능한 고급 체크포인트를 제공합니다.
  • DLP 는 특히 모델이 민감한 정보에 액세스할 수 있는 경우 민감한 정보 유출이라는 심각한 위험을 해결합니다. 또한 커스텀 차단 목록을 만들 수 있습니다.
  • 콘텐츠 자격 증명은 Gemini 3 Pro Image 모델을 사용하여 생성된 이미지에 암호화 방식으로 서명된 C2PA 메타데이터를 추가하여 AI로 생성되었음을 나타내고 출처의 검증 가능한 기록을 제공합니다.

Gemini용 Agent Platform에서 사용할 수 있는 안전 도구

Agent Platform은 Gemini 모델의 안전을 관리하기 위한 여러 도구를 제공합니다. 각 도구의 작동 방식, 고려사항, 이상적인 사용 사례를 이해하면 맞춤형 안전 솔루션을 구축하는 데 도움이 됩니다.

접근 방법 작동 방식 제공되는 보호 위험 사용 시기
기본 설정: Gemini + 구성할 수 없는 필터 Gemini 모델은 적대적인 프롬프트에 직면한 경우에도 안전하고 공정하도록 설계되었습니다. Google은 편향 및 유해성을 포함한 포괄적인 안전 평가에 투자했습니다. 기본 설정에는 아동 성적 학대 콘텐츠(CSAM) 또는 저작권 보호 콘텐츠(인용)와 관련된 콘텐츠의 생성을 방지하도록 설계된 독립적인 보호 레이어가 포함됩니다. 아동 성적 학대 콘텐츠 및 저작권(인용)에 대한 기본적인 보호 Gemini의 기본 안전이 조직의 요구사항을 충족하지 않을 수 있습니다. 모델이 할루시네이션을 일으키거나 요청 사항을 따르지 않을 수 있습니다. 의도적인 공격자가 여전히 탈옥 및 프롬프트 인젝션에 성공할 수 있습니다. 악의적인 입력이 예상되지 않는 워크플로
구성 가능한 필터 Gemini의 사전 빌드된 콘텐츠 필터는 성적 콘텐츠, 증오성 콘텐츠, 괴롭힘, 위험한 콘텐츠와 같은 다양한 카테고리의 유해한 콘텐츠로부터 추가적인 보호를 제공합니다. 유해한 콘텐츠의 확률 및 심각도를 기준으로 각 유해 카테고리 (예: BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH)의 차단 기준점을 구성할 수 있습니다. 이는 모델과 독립적인 레이어이므로 탈옥에 맞선 강력한 보호를 제공합니다. 사전 정의된 카테고리의 위반에 맞선 강력한 보호, 조정 가능한 민감도 사전 정의된 카테고리의 기준점 설정을 넘어선 세부적인 맞춤설정이 부족합니다. 때때로 무해한 콘텐츠를 차단(거짓양성)하거나 일부 유해한 콘텐츠를 놓칠 수 있습니다(거짓음성). 프롬프트 필터링이 아닌 응답 필터링에만 사용할 수 있습니다. 사용자 대상 애플리케이션 또는 에이전트에 기본 수준의 안전을 제공합니다. 콘텐츠 및 브랜드 안전을 보장하는 것이 목표인 경우 콘텐츠 필터를 시스템 요청 사항과 함께 사용해야 합니다.
시스템 안내 시스템 요청 사항 또는 프리앰블을 통해 브랜드 및 콘텐츠 안전 가이드라인을 모델에 안내할 수 있습니다. 예를 들어 모델에 '정치와 관련된 질문에 대답하지 마'라고 지시하거나 특정 브랜드 어조 및 스타일 가이드라인을 준수하도록 지시할 수 있습니다. 시스템 요청 사항은 모델의 동작을 직접 안내합니다. 콘텐츠/브랜드 안전을 위해 맞춤설정할 수 있으며 매우 효과적일 수 있음 모델이 할루시네이션을 일으키거나 요청 사항을 따르지 않을 수 있습니다. 의도적인 공격자가 여전히 탈옥 및 프롬프트 인젝션에 성공할 수 있습니다. 특정 브랜드 가이드라인 또는 미묘한 콘텐츠 정책을 준수해야 하는 애플리케이션 또는 에이전트. 콘텐츠 및 브랜드 안전을 보장하는 것이 목표인 경우 시스템 요청 사항을 콘텐츠 필터와 함께 사용해야 합니다.
커스텀 차단 목록 및 민감한 정보 보호를 위한 DLP DLP API는 텍스트를 검사하여 다양한 사전 정의된 infoType 감지기와 커스텀 infoType 감지기를 기반으로 민감한 정보를 식별하고 분류할 수 있습니다. 식별되면 수정, 마스킹 또는 토큰화와 같은 익명화 기법을 적용할 수 있습니다. DLP API를 사용하여 키워드를 차단할 수도 있습니다. 입력 보호: 사용자 프롬프트 또는 데이터를 Gemini로 보내기 전에 DLP API를 통해 텍스트를 전달하여 민감한 정보를 수정하거나 마스크 처리할 수 있습니다. 이렇게 하면 모델에서 민감한 정보를 처리하거나 로깅하는 것을 방지할 수 있습니다. 출력 보호: Gemini가 민감한 정보를 실수로 생성하거나 공개할 위험이 있는 경우(예: PII가 포함된 소스 문서를 요약하는 경우) 모델의 출력을 사용자에게 보내기 전에 DLP API로 검사할 수 있습니다. 욕설 또는 커스텀 단어에 대한 강력한 필터링. 민감한 정보에 대한 강력한 필터링. 지연 시간이 증가합니다. 과도한 차단으로 이어질 수 있습니다. 민감한 정보에 액세스할 수 있는 에이전트의 데이터 손실 방지
필터로서의 Gemini Gemini를 사용하여 에이전트 또는 앱의 프롬프트와 응답을 필터링할 수 있습니다. 여기에는 빠르고 비용 효율적인 Gemini 모델(예: Gemini Flash 또는 Flash Lite)에 두 번째 호출을 하여 사용자 또는 도구의 입력 또는 기본 Gemini 모델의 출력이 안전한지 평가하는 작업이 포함됩니다. 필터 모델에는 콘텐츠 안전, 브랜드 안전, 에이전트 불일치를 비롯한 정의된 정책에 따라 콘텐츠가 안전한지 여부를 결정하라는 요청 사항이 제공됩니다. 이를 통해 콘텐츠 안전 위반, 브랜드 안전 문제, 모델 드리프트, 할루시네이션에 대한 강력하고 맞춤설정 가능한 보호를 제공하며 종합적인 이해를 위해 텍스트, 이미지, 동영상, 오디오를 분석할 수 있습니다. 콘텐츠/브랜드 안전, 드리프트, 할루시네이션, 멀티모달 이해를 위한 매우 강력하고 맞춤설정 가능한 보호 추가 비용 및 지연 시간. 매우 드물지만 거짓음성이 발생할 수 있습니다. 사용자 대상 애플리케이션 또는 에이전트에 커스텀 안전 수준 제공
결합된 접근 방식: 구성 가능한 필터 + 시스템 요청 사항 + DLP + 필터로서의 Gemini 콘텐츠/브랜드 안전, 드리프트, 할루시네이션, 멀티모달 이해를 위한 매우 강력하고 맞춤설정 가능한 보호 추가 비용 및 지연 시간. 사용자 대상 애플리케이션 또는 에이전트에 강력한 수준의 안전을 제공합니다. 특히 적대적이고 악의적인 사용이 예상되는 경우
C2PA 콘텐츠 자격 증명 지원되는 모델의 경우 Gemini Enterprise Agent Platform은 암호화 방식으로 서명된 콘텐츠 자격 증명을 생성된 이미지에 자동으로 추가하여 AI로 생성되었음을 나타내고 C2PA 표준에 따라 출처의 검증 가능한 기록을 제공합니다. 자세한 내용은 콘텐츠 자격 증명을 참조하세요. 콘텐츠 출처에 관한 투명성; 사용자가 AI 생성 이미지를 식별하는 데 도움이 됩니다. 규정을 준수하지 않는 도구를 사용하면 파일의 진위성이 손상될 수 있습니다. 미디어 소스의 신뢰성을 보장하지 않습니다. 파일의 출처와 기록 에 관한 투명성이 사용자 신뢰에 중요한 미디어 생성 사용 사례.

지속적인 안전 평가

지속적인 안전 평가는 AI 시스템에 매우 중요합니다. AI 환경과 오용 방법은 끊임없이 진화하므로 이러한 평가가 필수적입니다.

정기적인 평가는 여러 가지 주요 이점을 제공합니다. 취약점을 식별하고, 완화 효과를 평가하고, 진화하는 위험에 적응하고, 정책 및 가치와의 일관성을 보장하고, 신뢰를 구축하고, 규정 준수를 유지하는 데 도움이 됩니다.

이러한 혜택을 얻으려면 다양한 유형의 평가를 실행하면 됩니다.

  • 개발 평가
  • 보증 평가
  • 레드팀
  • 외부 평가
  • 벤치마크 테스트

평가 범위는 다음과 같은 여러 가지 중요한 영역을 포함해야 합니다.

  • 콘텐츠 안전성
  • 브랜드 안전성
  • 관련성
  • 편향과 공정성
  • 진실성
  • 적대적 공격에 대한 견고성

Agent Platform's Gen AI Evaluation Service와 같은 도구로 이러한 노력을 지원할 수 있습니다. 평가 결과를 기반으로 한 반복적인 개선이 책임감 있는 AI 개발에 필수적임을 기억하세요.

다음 단계

개요

보안 관리자가 에이전트 상호작용을 관리하는 정책을 정의, 적용, 관리하는 방법을 간략하게 알아봅니다.

가이드

Google Agent Platform의 보안 제어에 대해 알아봅니다.

가이드

기본 에이전트를 만들고 배포한 후 Gen AI Evaluation Service를 사용하여 에이전트를 평가합니다.