Vertex AI의 안전

Gemini와 같은 생성형 AI 모델은 유해한 콘텐츠를 생성하거나, 민감한 정보를 유출하거나, 오용되는 등의 위험을 완화하기 위해 강력한 안전 조치가 필요합니다. Google Cloud의 Vertex AI 플랫폼은 Gemini 모델의 종합적인 안전을 구현하기 위한 다양한 도구와 관행을 제공합니다.

잠재적인 안전 위험 및 완화 전략

Gemini 모델을 배포할 때는 다양한 잠재적 위험을 식별하고 완화하는 것이 중요합니다. 이러한 위험을 이해하기 위한 선제적 접근 방식을 사용하면 안전 조치를 보다 효과적으로 구현할 수 있습니다. 다음과 같은 위험을 완화하거나 방지할 수 있다는 점에서 다층적인 안전 접근 방식이 매우 중요합니다.

  • 콘텐츠 위험: 여기에는 유해한 콘텐츠, 욕설 및 성적 콘텐츠, 폭력 및 유혈 콘텐츠가 포함될 수 있습니다.
  • 브랜드 안전성 위험: 생성된 콘텐츠가 브랜드의 어조나 가치와 일치하지 않거나, 경쟁업체 또는 부적절한 제품을 보증하거나, 평판에 손상을 줄 수 있는 콘텐츠를 생성할 수 있습니다.
  • 불일치 위험: 생성된 콘텐츠가 관련성이 없거나 부정확할 수 있습니다.
  • 보안 및 개인 정보 보호 위험: 생성된 콘텐츠에서 민감한 학습 데이터나 프롬프트가 유출될 수 있으며, 악의적인 사용자가 모델이 안전 프로토콜을 재정의하거나 의도하지 않은 방식으로 작동하도록 강제하려고 시도할 수 있습니다.

Google의 배포된 모델은 이러한 잠재적 문제를 해결하기 위해 다양한 기능을 제공합니다.

  • 기본 모델과 구성할 수 없는 필터가 일반적인 안전망을 제공합니다.
  • 시스템 요청 사항은 선호하는 동작과 피해야 할 주제에 관한 직접적인 안내를 모델에 제공합니다.
  • 콘텐츠 필터를 사용하면 일반적인 유해 유형에 대한 특정 기준을 설정할 수 있습니다.
  • 필터로서의 Gemini는 이전 레이어에서 놓칠 수 있거나 더 많은 컨텍스트 인식 평가가 필요한 복잡하거나 미묘한 안전 문제를 위한 맞춤설정 가능한 고급 체크포인트를 제공합니다.
  • DLP는 특히 모델이 민감한 정보에 액세스할 수 있는 경우 민감한 정보 유출이라는 심각한 위험을 해결합니다. 또한 커스텀 차단 목록을 만들 수 있습니다.

Vertex AI에서 Gemini에 사용할 수 있는 안전 도구

Vertex AI는 Gemini 모델의 안전을 관리하는 여러 도구를 제공합니다. 각 도구의 작동 방식, 고려사항, 이상적인 사용 사례를 이해하면 맞춤형 안전 솔루션을 구축하는 데 도움이 됩니다.

접근 방법 작동 방식 제공되는 보호 위험 사용 시기
기본 설정: Gemini + 구성 불가능한 필터 Gemini 모델은 적대적인 프롬프트에 직면한 경우에도 안전하고 공정하도록 설계되었습니다. Google은 편향 및 유해성을 포함한 포괄적인 안전성 평가에 투자했습니다. 기본 설정에는 아동 성적 학대 콘텐츠(CSAM) 또는 저작권 보호 콘텐츠(인용)와 관련된 콘텐츠의 생성을 방지하도록 설계된 독립적인 보호 레이어가 포함됩니다. 아동 성적 학대 콘텐츠 및 저작권(인용)에 대한 기본적인 보호 Gemini의 기본 안전 설정이 조직의 요구사항을 충족하지 않을 수 있습니다. 모델이 할루시네이션을 일으키거나 요청 사항을 따르지 않을 수 있습니다. 의도적인 공격자가 여전히 탈옥 및 프롬프트 인젝션에 성공할 수 있습니다. 악성 입력이 예상되지 않는 워크플로
구성 가능한 필터 Gemini의 사전 빌드된 콘텐츠 필터는 성적인 콘텐츠, 증오성 콘텐츠, 괴롭힘 콘텐츠, 위험한 콘텐츠와 같은 다양한 카테고리의 유해한 콘텐츠로부터 추가적인 보호를 제공합니다. 유해한 콘텐츠의 확률 및 심각도를 기준으로 각 유해 카테고리(예: BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH)의 차단 기준점을 구성할 수 있습니다. 이는 모델과 독립적인 레이어이므로 탈옥에 맞선 강력한 보호를 제공합니다. 사전 정의된 카테고리의 위반에 맞선 강력한 보호, 조정 가능한 민감도 사전 정의된 카테고리의 기준점 설정 외에 세부적인 맞춤설정이 부족합니다. 때때로 무해한 콘텐츠를 차단(거짓양성)하거나 일부 유해한 콘텐츠를 놓칠 수 있습니다(거짓음성). 프롬프트 필터링이 아닌 응답 필터링에만 사용할 수 있습니다. 사용자 대상 애플리케이션 또는 에이전트에 기본 수준의 안전을 제공합니다. 콘텐츠 및 브랜드 안전을 보장하는 것이 목표인 경우 콘텐츠 필터를 시스템 요청 사항과 함께 사용해야 합니다.
시스템 안내 시스템 요청 사항 또는 프리앰블을 통해 브랜드 및 콘텐츠 안전 가이드라인을 모델에 안내할 수 있습니다. 예를 들어 모델에 '정치와 관련된 질문에 대답하지 마'라고 지시하거나 특정 브랜드 어조 및 스타일 가이드라인을 준수하도록 지시할 수 있습니다. 시스템 요청 사항은 모델의 동작을 직접 안내합니다. 콘텐츠/브랜드 안전을 위해 맞춤설정할 수 있으며 매우 효과적일 수 있음 모델이 할루시네이션을 일으키거나 요청 사항을 따르지 않을 수 있습니다. 의도적인 공격자가 여전히 탈옥 및 프롬프트 인젝션에 성공할 수 있습니다. 특정 브랜드 가이드라인 또는 미묘한 콘텐츠 정책을 준수해야 하는 애플리케이션 또는 에이전트 콘텐츠 및 브랜드 안전을 보장하는 것이 목표인 경우 시스템 요청 사항을 콘텐츠 필터와 함께 사용해야 합니다.
커스텀 차단 목록 및 민감한 정보 보호를 위한 DLP DLP API는 텍스트를 검사하여 다양한 사전 정의된 infoType 감지기와 커스텀 infoType 감지기를 기반으로 민감한 정보를 식별하고 분류할 수 있습니다. 식별되면 수정, 마스킹 또는 토큰화와 같은 익명화 기법을 적용할 수 있습니다. DLP API를 사용하여 키워드를 차단할 수도 있습니다. 입력 보호: 사용자 프롬프트나 데이터를 Gemini에 전송하기 전에 DLP API를 통해 텍스트를 전달하여 민감한 정보를 수정하거나 마스킹할 수 있습니다. 이렇게 하면 모델에서 민감한 정보를 처리하거나 로깅하는 것을 방지할 수 있습니다. 출력 보호: Gemini가 실수로 민감한 정보를 생성하거나 공개할 위험이 있는 경우(예: PII가 포함된 소스 문서를 요약하는 경우) 모델의 출력을 DLP API로 검사한 후 사용자에게 전송할 수 있습니다. 욕설 또는 커스텀 단어에 대한 강력한 필터링. 민감한 정보에 대한 강력한 필터링 지연 시간이 추가됩니다. 과도한 차단으로 이어질 수 있습니다. 민감한 정보에 액세스할 수 있는 에이전트의 데이터 손실 방지
필터로서의 Gemini Gemini를 사용하여 에이전트 또는 앱의 프롬프트와 응답을 필터링할 수 있습니다. 여기에는 빠르고 비용 효율적인 Gemini 모델(예: Gemini Flash 또는 Flash Lite)에 두 번째 호출을 하여 사용자 또는 도구의 입력 또는 기본 Gemini 모델의 출력이 안전한지 평가하는 작업이 포함됩니다. 필터 모델에는 콘텐츠 안전, 브랜드 안전, 에이전트 불일치를 비롯한 정의된 정책에 따라 콘텐츠가 안전한지 여부를 결정하라는 요청 사항이 제공됩니다. 이를 통해 콘텐츠 안전 위반, 브랜드 안전 문제, 모델 드리프트, 할루시네이션에 대한 강력하고 맞춤설정 가능한 보호를 제공하며 종합적인 이해를 위해 텍스트, 이미지, 동영상, 오디오를 분석할 수 있습니다. 콘텐츠/브랜드 안전, 드리프트, 할루시네이션, 멀티모달 이해를 위한 매우 강력하고 맞춤설정 가능한 보호 추가 비용 및 지연 시간. 매우 드물지만 거짓음성이 발생할 수 있습니다. 사용자 대상 애플리케이션 또는 에이전트에 커스텀 안전 수준 제공
다층적 접근 방식: 구성 가능한 필터 + 시스템 요청 사항 + DLP + 필터로서의 Gemini 콘텐츠/브랜드 안전, 드리프트, 할루시네이션, 멀티모달 이해를 위한 매우 강력하고 맞춤설정 가능한 보호 추가 비용 및 지연 시간. 특히 적대적이고 악의적인 사용이 예상되는 사용자 대상 애플리케이션 또는 에이전트에 강력한 수준의 안전 제공

지속적인 안전 평가

AI 환경과 오용 방법은 끊임없이 진화하므로 AI 시스템의 지속적인 안전성 평가가 중요합니다. 정기적인 평가는 취약점을 식별하고, 완화 효과를 평가하고, 진화하는 위험에 적응하고, 정책 및 가치와의 일관성을 보장하고, 신뢰를 구축하고, 규정 준수를 유지하는 데 도움이 됩니다. 개발 평가, 보증 평가, 레드팀, 외부 평가, 벤치마크 테스트 등 다양한 평가 유형이 이를 달성하는 데 도움이 됩니다. 평가 범위는 콘텐츠 안전성, 브랜드 안전성, 관련성, 편향 및 공정성, 진실성, 적대적 공격에 대한 견고성을 포함해야 합니다. Vertex AI의 Gen AI Evaluation Service와 같은 도구로 이러한 노력을 지원할 수 있으며, 이는 평가 결과를 기반으로 한 반복적인 개선이 책임감 있는 AI 개발에 필수적임을 강조합니다.