AI 및 ML 관점: 보안

Well-Architected Framework: AI 및 ML 관점의 이 문서에서는 AI 및 ML 배포가 조직의 보안 및 규정 준수 요구사항을 충족하는지 확인하기 위한 원칙과 권장사항을 간략하게 설명합니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 보안 분야와 일치합니다.

AI 및 ML 워크로드의 안전한 배포는 특히 엔터프라이즈 환경에서 중요한 요구사항입니다. 이 요구사항을 충족하려면 AI 및 ML 솔루션의 초기 개념화부터 개발, 배포, 지속적인 운영에 이르기까지 전반적인 보안 접근 방식을 채택해야 합니다. Google Cloud 는 AI 및 ML 워크로드를 보호하는 데 도움이 되도록 설계된 강력한 도구와 서비스를 제공합니다.

이 문서의 권장사항은 다음 핵심 원칙에 매핑됩니다.

AI 보안에 관한 자세한 내용은 다음 리소스를 참고하세요.

  • Google Cloud의 안전한 AI 프레임워크 (SAIF)는 안전하고 책임감 있는 AI 시스템을 빌드하기 위한 포괄적인 가이드를 제공합니다. AI 수명 주기 전반에서 보안 및 규정 준수 고려사항을 해결하기 위한 주요 원칙과 권장사항을 설명합니다.
  • AI 신뢰에 대한 Google Cloud의 접근 방식에 대해 자세히 알아보려면 규정 준수 리소스 센터를 참고하세요.

명확한 목표와 요구사항 정의

효과적인 AI 및 ML 보안은 전반적인 비즈니스 전략의 핵심 구성요소입니다. 개발 후 제어를 추가하는 대신 설계 및 개발 프로세스 초기에 필요한 보안 및 규정 준수 제어를 통합하는 것이 더 쉽습니다.

설계 및 개발 프로세스를 시작할 때 특정 위험 환경과 특정 비즈니스 우선순위에 적합한 결정을 내립니다. 예를 들어 지나치게 제한적인 보안 조치는 데이터를 보호할 수 있지만 혁신을 저해하고 개발 주기를 늦출 수도 있습니다. 하지만 보안이 부족하면 정보 유출, 평판 손상, 재정적 손실이 발생하여 비즈니스 목표에 해를 끼칠 수 있습니다.

명확한 목표와 요구사항을 정의하려면 다음 권장사항을 고려하세요.

AI 및 ML 보안을 비즈니스 목표에 맞게 조정

AI 및 ML 보안 노력을 비즈니스 목표와 일치시키려면 AI 수명 주기의 모든 단계에 보안을 통합하는 전략적 접근 방식을 사용하세요. 이 방법을 따르려면 다음을 수행하세요.

  1. 명확한 비즈니스 목표 및 보안 요구사항 정의:

    • 주요 비즈니스 목표 식별: AI 및 ML 이니셔티브를 통해 달성하고자 하는 명확한 비즈니스 목표를 정의합니다. 예를 들어 고객 경험 개선, 운영 최적화, 신제품 개발이 목표일 수 있습니다.
    • 목표를 보안 요구사항으로 변환: 비즈니스 목표를 명확히 할 때 이러한 목표를 지원하는 구체적인 보안 요구사항을 정의합니다. 예를 들어 목표가 AI를 사용하여 고객 추천을 맞춤설정하는 것일 수 있습니다. 이 목표를 지원하기 위해 보안 요구사항은 고객 데이터 개인 정보를 보호하고 추천 알고리즘에 대한 무단 액세스를 방지하는 것일 수 있습니다.
  2. 보안과 비즈니스 요구사항의 균형 유지:

    • 위험 평가 수행: AI 시스템의 잠재적인 보안 위협과 취약점을 식별합니다.
    • 보안 조치 우선순위 지정: 비즈니스 목표에 미치는 잠재적 영향을 기반으로 보안 조치의 우선순위를 지정합니다.
    • 비용과 이점 분석: 가장 효과적인 솔루션에 투자하세요. 다양한 보안 조치의 비용과 이점을 고려합니다.
    • 개발 초기부터 보안 문제 반영: 설계 단계 초기에 보안 권장사항을 구현하고 비즈니스 요구사항이 변경되고 위협이 발생하면 안전 조치를 조정합니다.

잠재적인 공격 벡터 및 위험 식별

데이터 포이즈닝, 모델 역전, 적대적 공격 등 AI 시스템에 영향을 줄 수 있는 잠재적 공격 벡터를 고려합니다. AI 시스템이 개발됨에 따라 진화하는 공격 표면을 지속적으로 모니터링하고 평가하며 새로운 위협과 취약점을 추적합니다. AI 시스템의 변경사항으로 인해 공격 표면도 변경될 수 있습니다.

잠재적인 법적 및 평판 위험을 완화하려면 데이터 개인 정보 보호, 알고리즘 편향, 기타 관련 규정과 관련된 규정 준수 요구사항도 해결해야 합니다.

잠재적인 위협과 취약점을 조기에 예측하고 위험을 완화하는 설계 선택을 하려면 보안 내재화 설계 접근 방식을 채택하세요.

Google Cloud 는 보안 내재화 설계 접근 방식을 구현하는 데 도움이 되는 포괄적인 도구 및 서비스를 제공합니다.

  • 클라우드 상황 관리: Security Command Center를 사용하여 AI 인프라의 잠재적인 취약점과 잘못된 구성을 식별합니다.
  • 공격 노출 점수 및 공격 경로: Security Command Center에서 생성하는 공격 노출 점수와 공격 경로를 미세 조정하고 사용합니다.
  • Google Threat Intelligence: AI 시스템을 타겟팅하기 위해 등장하는 새로운 위협 및 공격 기법에 대한 최신 정보를 받아보세요.
  • 로깅 및 모니터링: AI 시스템의 성능과 보안을 추적하고 이상 또는 의심스러운 활동을 감지합니다. 정기적인 보안 감사를 실시하여 AI 인프라와 모델의 잠재적인 취약점을 파악하고 해결합니다.
  • 취약점 관리: AI 시스템의 보안 취약점을 추적하고 해결하기 위한 취약점 관리 프로세스를 구현합니다.

자세한 내용은 Google의 설계에 의한 보안설계에 의한 보안 구현을 참고하세요.

데이터를 안전하게 보호하고 손실 또는 잘못된 처리를 방지합니다.

데이터는 안전하게 보호해야 하는 가치 있고 민감한 애셋입니다. 데이터 보안은 사용자 신뢰를 유지하고, 비즈니스 목표를 지원하고, 규정 준수 요구사항을 충족하는 데 도움이 됩니다.

데이터를 안전하게 보호하려면 다음 권장사항을 고려하세요.

데이터 최소화 원칙 준수

데이터 개인 정보 보호를 위해 데이터 수집 최소화 원칙을 준수하세요. 데이터를 최소화하려면 비즈니스 목표에 엄격하게 필요하지 않은 데이터를 수집, 보관 또는 사용하지 마세요. 가능한 경우 합성 데이터 또는 완전히 익명처리된 데이터를 사용하세요.

데이터 수집은 비즈니스 통계 및 분석을 촉진하는 데 도움이 되지만 데이터 수집 과정에서 신중을 기하는 것이 중요합니다. 고객에 관한 개인 식별 정보 (PII)를 수집하거나, 민감한 정보를 공개하거나, 편향이나 논란을 일으키는 경우 편향된 ML 모델을 빌드할 수 있습니다.

다양한 사용 사례에서 데이터 최소화 및 데이터 개인 정보 보호를 개선하는 데 도움이 되는 Google Cloud 기능을 사용할 수 있습니다.

  • 데이터를 익명화하면서 유용성을 유지하려면 가명처리, 익명화, 버케팅과 같은 일반화와 같은 변환 방법을 적용하세요. 이러한 방법을 구현하려면 Sensitive Data Protection을 사용하면 됩니다.
  • 데이터를 보강하고 잠재적 편향을 완화하려면 Vertex AI 데이터 라벨링 작업을 사용하면 됩니다. 데이터 라벨 지정 프로세스는 원시 데이터에 유익하고 의미 있는 태그를 추가하여 ML 모델의 구조화된 학습 데이터로 변환합니다. 데이터 라벨링은 데이터에 구체성을 더하고 모호성을 줄입니다.
  • 장기적인 액세스 또는 조작으로부터 리소스를 보호하려면 Cloud Storage 기능을 사용하여 데이터 수명 주기를 제어하세요.

데이터 암호화 구현 방법에 관한 권장사항은 Well-Architected Framework의 저장 데이터 및 전송 중 데이터 암호화를 참고하세요.

데이터 수집, 저장, 변환 모니터링

AI 애플리케이션의 학습 데이터는 편향 및 데이터 유출이 발생할 위험이 가장 큽니다. 규정을 준수하고 여러 팀에서 데이터를 관리하려면 데이터 흐름, 변환, 액세스를 모니터링하는 데이터 거버넌스 레이어를 설정하세요. 데이터 액세스 및 조작 활동에 대한 로그를 유지관리합니다. 로그를 사용하면 데이터 액세스를 감사하고, 무단 액세스 시도를 감지하고, 원치 않는 액세스를 방지할 수 있습니다.

Google Cloud 기능을 사용하여 데이터 거버넌스 전략을 구현할 수 있습니다.

  • 조직 전체 또는 부서 전체 데이터 거버넌스 플랫폼을 설정하려면 Dataplex Universal Catalog을 사용하세요. 데이터 거버넌스 플랫폼을 사용하면 데이터 플랫폼 전반에서 데이터 및 AI 아티팩트를 중앙 집중식으로 검색, 관리, 모니터링, 제어할 수 있습니다. 데이터 거버넌스 플랫폼은 신뢰할 수 있는 사용자에게도 액세스 권한을 제공합니다. Dataplex Universal Catalog를 사용하여 다음 작업을 실행할 수 있습니다.
    • 데이터 계보를 관리합니다. BigQuery는 열 수준 계보도 제공할 수 있습니다.
    • 데이터 품질 검사 및 데이터 프로필을 관리합니다.
    • 다양한 데이터 마트에서 데이터 검색, 탐색, 처리를 관리합니다.
    • 기능 메타데이터 및 모델 아티팩트를 관리합니다.
    • 비즈니스 용어집을 만들어 메타데이터를 관리하고 표준화된 어휘를 설정합니다.
    • 관점 및 관점 유형을 통해 컨텍스트로 메타데이터를 보강합니다.
    • BigLake와 Iceberg, Delta와 같은 개방형 형식 테이블 전반에서 데이터 거버넌스를 통합합니다.
    • 데이터 메시를 빌드하여 서로 다른 팀 또는 도메인의 데이터 소유자 간에 데이터 소유권을 분산합니다. 이 관행은 데이터 보안 원칙을 준수하며 데이터 접근성과 운영 효율성을 개선하는 데 도움이 될 수 있습니다.
    • BigQuery에서 Dataplex Universal Catalog로 민감한 정보 결과를 검사하고 전송합니다.
  • 잘 관리되는 통합 개방형 레이크하우스를 구축하려면 데이터 레이크와 데이터 웨어하우스를 Dataproc MetastoreBigLake metastore와 같은 관리형 메타스토어 서비스와 통합하세요. 개방형 레이크하우스는 다양한 데이터 처리 엔진과 호환되는 개방형 테이블 형식을 사용합니다.
  • 특성 및 특성 그룹의 모니터링을 예약하려면 Vertex AI Feature Store를 사용하세요.
  • 조직, 폴더 또는 프로젝트 수준에서 Vertex AI 데이터 세트를 검사하려면 Vertex AI용 민감한 정보 검색을 사용하세요. BigQuery에 저장된 데이터 프로필을 분석할 수도 있습니다.
  • 실시간 로그를 캡처하고 데이터 파이프라인과 관련된 측정항목을 수집하려면 Cloud LoggingCloud Monitoring을 사용하세요. API 호출의 감사 추적을 수집하려면 Cloud 감사 로그를 사용하세요. 실험이나 다른 로그 서버에 개인 식별 정보 또는 기밀 데이터를 로깅하지 마세요.

최소 권한 원칙을 사용하여 역할 기반 액세스 제어 구현

역할 기반 액세스 제어 (RBAC)를 구현하여 사용자 역할에 따라 다양한 수준의 액세스 권한을 할당합니다. 사용자에게는 역할 활동을 수행하는 데 필요한 최소 권한만 있어야 합니다. 사용자에게 필요한 액세스 권한(예: 액세스 권한 없음, 읽기 전용, 쓰기)만 부여되도록 최소 권한의 원칙에 따라 권한을 할당합니다.

조직에서 데이터 레이크, 특성 스토어 또는 모델 학습용 초매개변수에 있는 민감한 데이터를 사용하는 경우 최소 권한 RBAC는 보안에 중요합니다. 이 방법을 사용하면 데이터 도난을 방지하고, 모델 무결성을 유지하며, 사고나 공격이 발생할 수 있는 영역을 제한할 수 있습니다.

이러한 액세스 전략을 구현하는 데 도움이 되도록 다음Google Cloud 기능을 사용할 수 있습니다.

  • 액세스 세분성을 구현하려면 다음 옵션을 고려하세요.

    • 세부적인 액세스를 허용하도록 다양한 제품의 IAM 역할을 사용자, 그룹 또는 서비스 계정에 매핑합니다. 프로젝트 요구사항, 액세스 패턴 또는 태그에 따라 이러한 역할을 매핑합니다.
    • 코드, 리소스 설정, 하이퍼파라미터와 같은 데이터, 모델, 모델 구성에 대한 세부적인 액세스를 관리하려면 조건이 있는 IAM 정책을 설정하세요.
    • 팀 외부에서 감사하고 공유하는 민감한 정보를 보호하는 데 도움이 되는 애플리케이션 수준의 세부적인 액세스 권한을 살펴보세요.

  • 특정 리소스에 대한 액세스를 제한하려면 주 구성원 액세스 경계 (PAB) 정책을 사용하면 됩니다. Privileged Access Manager를 사용하여 일부 주 구성원의 적시 임시 권한 승격을 제어할 수도 있습니다. 나중에 이 Privileged Access Manager 활동의 감사 로그를 볼 수 있습니다.

  • IP 주소 및 최종 사용자 기기 속성을 기준으로 리소스에 대한 액세스를 제한하려면 Identity-Aware Proxy (IAP) 액세스 정책을 확장하면 됩니다.

  • 다양한 사용자 그룹의 액세스 패턴을 만들려면 IAM으로 Vertex AI 액세스 제어를 사용하여 사전 정의된 역할 또는 커스텀 역할을 결합하면 됩니다.

  • 컨텍스트 인식 액세스 제어를 사용하여 Vertex AI Workbench 인스턴스를 보호하려면 Access Context ManagerChrome Enterprise Premium을 사용하세요. 이 방법을 사용하면 사용자가 인스턴스에 인증할 때마다 액세스가 평가됩니다.

데이터 이동을 위한 보안 조치 구현

보안 경계 및 암호화, 데이터 이동 제한과 같은 기타 조치를 구현합니다. 이러한 조치를 통해 재정적 손실, 평판 손상, 법적 책임, 비즈니스 운영 중단을 초래할 수 있는 데이터 유출 및 데이터 손실을 방지할 수 있습니다.

Google Cloud에서 데이터 무단 반출 및 손실을 방지하려면 보안 도구와 서비스를 함께 사용하면 됩니다.

암호화를 구현하려면 다음을 고려하세요.

  • 암호화 키를 더 세부적으로 제어하려면 Cloud KMS에서 고객 관리 암호화 키 (CMEK)를 사용하세요. CMEK를 사용하면 다음 CMEK 통합 서비스에서 저장 데이터를 암호화합니다.
  • Cloud Storage에서 데이터를 보호하려면 서버 측 암호화를 사용하여 CMEK를 저장하세요. 자체 서버에서 CMEK를 관리하는 경우 CMEK 스토리지 시스템이 손상되더라도 서버 측 암호화를 통해 CMEK와 연결된 데이터를 보호할 수 있습니다.
  • 전송 중인 데이터를 암호화하려면 AI 및 ML 서비스에 대한 모든 API 호출에 HTTPS를 사용하세요. 애플리케이션 및 API에 HTTPS를 적용하려면 HTTPS 부하 분산기를 사용하세요.

데이터 암호화 방법에 관한 권장사항은 Well-Architected Framework의 보안 영역에 있는 저장 데이터 및 전송 중 데이터 암호화를 참고하세요.

경계를 구현하려면 다음을 고려하세요.

  • AI 및 ML 리소스 주위에 보안 경계를 만들고 가상 프라이빗 클라우드 (VPC)에서 데이터 무단 반출을 방지하려면 VPC 서비스 제어를 사용하여 서비스 경계를 정의하세요. AI 및 ML 리소스와 민감한 데이터를 경계에 포함합니다. 데이터 흐름을 제어하려면 경계에 대한 인그레스 및 이그레스 규칙을 구성하세요.
  • AI 및 ML 리소스의 인바운드 및 아웃바운드 트래픽을 제한하려면 방화벽 규칙을 구성하세요. 기본적으로 모든 트래픽을 거부하고 기준을 충족하는 트래픽만 명시적으로 허용하는 정책을 구현합니다. 정책 예시는 예: 특정 포트를 제외한 모든 외부 연결 거부를 참고하세요.

데이터 이동에 제한을 구현하려면 다음을 고려하세요.

  • 안전한 환경에서 데이터를 공유하고 개인 정보 보호 경계를 넘어 확장하려면 강력한 보안 및 개인 정보 보호 프레임워크를 제공하는 BigQuery 공유BigQuery 데이터 클린룸을 사용하세요.
  • 비즈니스 인텔리전스 대시보드에서 기본 제공 대상으로 직접 데이터를 공유하려면 안전한 클라우드 환경을 제공하는 Looker 작업 허브를 사용하세요.

데이터 포이즈닝 방지

데이터 포이즈닝은 공격자가 모델 동작을 조작하거나 성능을 저하시키기 위해 학습 데이터 세트에 악성 데이터를 삽입하는 사이버 공격의 한 유형입니다. 이 사이버 공격은 ML 학습 시스템에 심각한 위협이 될 수 있습니다. 데이터의 유효성과 품질을 보호하려면 데이터를 보호하는 관행을 유지하세요. 이 접근 방식은 모델의 일관된 편향 없음, 신뢰성, 무결성에 매우 중요합니다.

일관되지 않은 동작, 변환 또는 데이터에 대한 예기치 않은 액세스를 추적하려면 데이터 파이프라인 및 ML 파이프라인에 대한 포괄적인 모니터링 및 알림을 설정하세요.

Google Cloud 기능을 사용하면 데이터 포이즈닝에 대한 보호 조치를 더 많이 구현할 수 있습니다.

  • 데이터 무결성을 검증하려면 다음을 고려하세요.

    • 학습에 데이터를 사용하기 전에 강력한 데이터 유효성 검사를 구현하세요. 데이터 형식, 범위, 분포를 확인합니다. Dataplex Universal Catalog의 자동 데이터 품질 기능을 사용할 수 있습니다.
    • Model Armor와 함께 Sensitive Data Protection을 사용하여 포괄적인 데이터 손실 방지 기능을 활용하세요. 자세한 내용은 Model Armor 주요 개념을 참고하세요. Model Armor가 포함된 Sensitive Data Protection을 사용하면 지식 재산과 같은 민감한 정보를 검색, 분류, 보호할 수 있습니다. 이러한 기능을 사용하면 LLM 상호작용에서 민감한 정보의 무단 노출을 방지할 수 있습니다.
    • 데이터 포이즈닝을 나타낼 수 있는 학습 데이터의 이상치를 감지하려면 통계적 방법 또는 ML 모델을 사용하여 BigQuery의 이상치 감지를 사용하세요.
  • 강력한 학습을 준비하려면 다음 단계를 따르세요.

    • 앙상블 방법을 사용하여 포이즌 데이터 포인트의 영향을 줄입니다. 하이퍼파라미터 미세 조정을 사용하여 데이터의 여러 하위 집합에서 여러 모델을 학습시킵니다.
    • 데이터 증강 기법을 사용하여 데이터 세트 간 데이터 분포의 균형을 맞춥니다. 이 접근 방식을 사용하면 데이터 포이즈닝의 영향을 줄이고 적대적 예시를 추가할 수 있습니다.
  • 학습 데이터 또는 모델 출력에 인적 검토를 통합하려면 다음 단계를 따르세요.

    • 모델 평가 측정항목을 분석하여 데이터 포이즈닝을 나타낼 수 있는 잠재적 편향, 이상치 또는 예상치 못한 동작을 감지합니다. 자세한 내용은 Vertex AI의 모델 평가를 참고하세요.
    • 도메인 전문성을 활용하여 모델이나 애플리케이션을 평가하고 자동화된 방법으로는 감지하지 못할 수 있는 의심스러운 패턴이나 데이터 포인트를 식별합니다. 자세한 내용은 Gen AI Evaluation Service 개요를 참고하세요.

인프라 및 데이터 보안에 중점을 둔 데이터 플랫폼을 만드는 방법에 관한 권장사항은 Well-Architected Framework의 설계에 의한 보안 구현 원칙을 참고하세요.

AI 파이프라인을 안전하게 유지하고 조작에 강하게 유지

AI 및 ML 코드와 코드 정의 파이프라인은 중요한 애셋입니다. 보안이 적용되지 않은 코드는 조작될 수 있으며, 이로 인해 데이터 유출, 규정 준수 실패, 중요한 비즈니스 활동 중단이 발생할 수 있습니다. AI 및 ML 코드를 안전하게 유지하면 모델과 모델 출력의 무결성과 가치를 보장할 수 있습니다.

AI 코드와 파이프라인을 안전하게 유지하려면 다음 권장사항을 고려하세요.

안전한 코딩 관행 사용

취약점을 방지하려면 모델을 개발할 때 안전한 코딩 관행을 사용하세요. AI 전용 입력 및 출력 유효성 검사를 구현하고, 모든 소프트웨어 종속 항목을 관리하고, 보안 코딩 원칙을 개발에 일관되게 포함하는 것이 좋습니다. 데이터 전처리부터 최종 애플리케이션 코드까지 AI 수명 주기의 모든 단계에 보안을 포함하세요.

엄격한 검증을 구현하려면 다음을 고려하세요.

  • 모델 조작 또는 시스템 악용을 방지하려면 코드에서 입력과 출력을 검사하고 삭제하세요.

    • Model Armor 또는 미세 조정된 LLM을 사용하여 일반적인 위험에 대한 프롬프트와 응답을 자동으로 검사합니다.
    • 데이터 유형, 형식, 범위에 대해 데이터 수집 및 전처리 스크립트 내에서 데이터 검증을 구현합니다. Vertex AI Pipelines 또는 BigQuery의 경우 Python을 사용하여 이 데이터 검증을 구현할 수 있습니다.
    • CodeMender와 같은 코딩 어시스턴트 LLM 에이전트를 사용하여 코드 보안을 개선합니다. 인간 참여형(Human In The Loop) 접근 방식을 취하여 제안된 변경사항을 검증합니다.
  • AI 모델 API 엔드포인트를 관리하고 보호하려면 요청 검증, 트래픽 제어, 인증과 같은 구성 가능한 기능이 포함된 Apigee를 사용하세요.

  • AI 수명 주기 전반에서 위험을 완화하려면 AI Protection을 사용하여 다음 작업을 수행하세요.

    • 환경에서 AI 인벤토리를 검색합니다.
    • 인벤토리에서 잠재적인 취약점을 평가합니다.
    • 제어, 정책, 보호를 사용하여 AI 애셋을 보호합니다.
    • 탐지, 조사, 대응 기능을 사용하여 AI 시스템을 관리합니다.

CI/CD 파이프라인에서 코드 및 아티팩트 종속 항목을 보호하려면 다음을 고려하세요.

  • 오픈소스 라이브러리 종속 항목이 프로젝트에 도입할 수 있는 위험을 해결하려면 Artifact Registry와 함께 Artifact Analysis를 사용하여 알려진 취약점을 감지하세요. 승인된 라이브러리 버전을 사용하고 유지관리합니다. 비공개 Artifact Registry 저장소에 커스텀 ML 패키지와 검증된 종속 항목을 저장합니다.
  • Cloud Build MLOps 파이프라인에 종속 항목 스캔을 삽입하려면 Binary Authorization을 사용하세요. 코드의 컨테이너 이미지가 보안 검사를 통과하는 경우에만 배포를 허용하는 정책을 적용합니다.
  • 소프트웨어 공급망에 관한 보안 정보를 확인하려면 소스, 빌드, 아티팩트, 배포, 런타임에 관한 세부정보를 제공하는 Google Cloud 콘솔의 대시보드를 사용하세요. 이 정보에는 빌드 아티팩트의 취약점, 빌드 출처, Software Bill of Materials (SBOM) 종속 항목 목록이 포함됩니다.
  • 소프트웨어 공급망 보안의 성숙도 수준을 평가하려면 Supply chain Levels for Software Artifacts (SLSA) 프레임워크를 사용하세요.

개발의 모든 단계에 안전한 코딩 원칙을 일관되게 포함하려면 다음을 고려하세요.

  • 모델 상호작용에서 민감한 정보가 노출되지 않도록 하려면 Sensitive Data Protection을 사용한 로깅을 사용하세요. 이러한 제품을 함께 사용하면 AI 애플리케이션과 파이프라인 구성요소가 로깅하는 데이터를 제어하고 민감한 데이터를 숨길 수 있습니다.
  • 최소 권한의 원칙을 구현하려면 Vertex AI 커스텀 작업, 파이프라인, 배포된 모델에 사용하는 서비스 계정에 최소한의 필수 IAM 권한만 있는지 확인하세요. 자세한 내용은 최소 권한 원칙으로 역할 기반 액세스 제어 구현을 참고하세요.
  • 파이프라인과 빌드 아티팩트를 보호하려면 코드가 실행되는 환경의 보안 구성 (VPC 및 VPC 서비스 제어)을 이해해야 합니다.

무단 액세스로부터 파이프라인 및 모델 아티팩트 보호

모델 아티팩트와 파이프라인은 지식 재산이며 학습 데이터에도 독점 정보가 포함되어 있습니다. 모델 가중치, 파일, 배포 구성이 조작되거나 취약해지지 않도록 보안이 강화된 아티팩트를 저장하고 액세스하세요. 사용자 역할과 필요에 따라 각 아티팩트에 대해 다양한 액세스 수준을 구현합니다.

모델 아티팩트를 보호하려면 다음을 고려하세요.

  • 모델 아티팩트와 기타 민감한 파일을 보호하려면 Cloud KMS로 암호화하세요. 이 암호화는 기본 스토리지가 손상되더라도 저장 데이터와 전송 중인 데이터를 보호하는 데 도움이 됩니다.
  • 파일에 대한 액세스를 보호하려면 Cloud Storage에 파일을 저장하고 액세스 제어를 구성하세요.
  • 잘못되었거나 부적절한 구성과 정의된 표준에서 벗어나는 구성을 추적하려면 Security Command Center를 사용하여 보안 상황을 구성하세요.
  • 세부적인 액세스 제어 및 저장 데이터 암호화를 사용 설정하려면 Vertex AI Model Registry에 모델 아티팩트를 저장하세요. 보안을 강화하려면 승인된 빌드 프로세스 중에 생성된 패키지 및 컨테이너의 디지털 서명을 만드세요.
  • Google Cloud의 엔터프라이즈급 보안을 활용하려면 Model Garden에서 사용할 수 있는 모델을 사용하세요. Model Garden은 Google의 독점 모델을 제공하며 추천 파트너의 서드 파티 모델을 제공합니다.
  • 모든 사용자 및 그룹 수명 주기에 중앙 관리를 적용하고 최소 권한 원칙을 적용하려면 IAM을 사용하세요.

    • MLOps 파이프라인에 전용 최소 권한 서비스 계정을 만들어 사용하세요. 예를 들어 학습 파이프라인의 서비스 계정에는 특정 Cloud Storage 버킷에서 데이터를 읽고 모델 아티팩트를 Model Registry에 쓸 수 있는 권한이 있습니다.
    • IAM 조건을 사용하여 조건부 속성 기반 액세스 제어를 적용합니다. 예를 들어 조건을 사용하면 요청이 신뢰할 수 있는 Cloud Build 트리거에서 시작된 경우에만 서비스 계정이 Vertex AI 파이프라인을 트리거할 수 있습니다.

배포 파이프라인을 보호하려면 다음을 고려하세요.

  • Google Cloud 서비스 및 리소스에서 MLOps 단계를 관리하려면 다른 서비스와 통합하고 하위 수준 액세스 제어를 제공할 수 있는 Vertex AI Pipelines를 사용하세요. 파이프라인을 다시 실행할 때는 모델 아티팩트를 배포하기 전에 Vertex Explainable AI책임감 있는 AI 검사를 실행해야 합니다. 이러한 검사를 통해 다음 보안 문제를 감지하거나 방지할 수 있습니다.

    • 무단 변경사항으로, 모델 조작을 나타낼 수 있습니다.
    • 교차 사이트 스크립팅 (XSS): 손상된 컨테이너 이미지 또는 종속 항목을 나타낼 수 있습니다.
    • 안전하지 않은 엔드포인트로, 잘못 구성된 서비스 인프라를 나타낼 수 있습니다.
  • 추론 중에 모델 상호작용을 보호하려면 사전 빌드된 컨테이너 또는 커스텀 컨테이너와 함께 Private Service Connect를 기반으로 하는 비공개 엔드포인트를 사용하세요. 사전 정의된 입력 및 출력 스키마를 사용하여 모델 서명을 만듭니다.

  • 코드 변경사항 추적을 자동화하려면 소스 코드 관리에 Git을 사용하고 버전 관리를 강력한 CI/CD 파이프라인과 통합하세요.

자세한 내용은 AI 파이프라인 보안을 참고하세요.

계보 및 추적 적용

규정 준수 요구사항을 충족하기 위해 AI 및 ML 애셋의 계보 및 추적을 적용하세요. 데이터 계보 및 추적은 데이터, 모델, 코드에 대한 광범위한 변경 레코드를 제공합니다. 모델 출처는 AI 및 ML 수명 주기 전반에 걸쳐 투명성과 책임성을 제공합니다.

Google Cloud에서 계보 및 추적을 효과적으로 적용하려면 다음 도구와 서비스를 고려하세요.

  • 저장 시 자동으로 암호화되는 모델, 데이터 세트, 아티팩트의 계보를 추적하려면 Vertex ML Metadata를 사용하세요. 데이터 소스, 변환, 모델 매개변수, 실험 결과에 관한 메타데이터를 로깅합니다.
  • Vertex AI Pipelines에서 파이프라인 아티팩트의 계보를 추적하고 모델 및 데이터 세트 리소스를 검색하려면 Dataplex Universal Catalog를 사용하면 됩니다. 디버깅, 문제 해결 또는 근본 원인 분석을 실행할 때 개별 파이프라인 아티팩트를 추적합니다. 파이프라인 아티팩트의 계보를 포함한 전체 MLOps 파이프라인을 추적하려면 Vertex ML Metadata를 사용하세요. Vertex ML Metadata를 사용하면 리소스와 실행을 분석할 수도 있습니다. Model Registry는 저장된 각 모델의 버전을 적용하고 관리합니다.
  • API 호출 및 관리 작업을 추적하려면 Vertex AI 감사 로그를 사용 설정하세요. 로그 애널리틱스로 감사 로그를 분석하여 데이터와 모델에 액세스하거나 수정한 사용자와 시간을 파악합니다. 로그를 서드 파티 대상으로 라우팅할 수도 있습니다.

보안 도구 및 아티팩트를 사용하여 보안 시스템에 배포

코드와 모델이 보안 환경에서 실행되는지 확인합니다. 이 환경에는 강력한 액세스 제어 시스템이 있어야 하며 배포하는 도구와 아티팩트에 대한 보안 보증을 제공해야 합니다.

보안 시스템에 코드를 배포하려면 다음 권장사항을 고려하세요.

안전한 환경에서 모델 학습 및 배포

AI 및 ML 시스템의 시스템 무결성, 기밀성, 가용성을 유지하려면 승인되지 않은 리소스 조작을 방지하는 엄격한 액세스 제어를 구현하세요. 이 방어는 다음을 수행하는 데 도움이 됩니다.

  • 예상치 못한 결과나 상충되는 결과를 생성할 수 있는 모델 조작을 완화합니다.
  • 개인 정보 침해로부터 학습 데이터를 보호하세요.
  • 서비스 가동시간을 유지합니다.
  • 규제 준수 상태를 유지합니다.
  • 사용자 신뢰를 구축합니다.

보안이 강화된 환경에서 ML 모델을 학습하려면 Google Cloud Cloud Run, GKE, Dataproc과 같은 관리형 서비스를 사용하세요. Vertex AI 서버리스 학습을 사용할 수도 있습니다.

이 섹션에서는 학습 및 배포 환경을 더욱 안전하게 보호하는 데 도움이 되는 권장사항을 제공합니다.

환경과 경계를 보호하려면 다음을 고려하세요.

  • 앞서 설명한 대로 보안 조치를 구현할 때는 다음 사항을 고려하세요.

    • 학습 환경을 격리하고 액세스를 제한하려면 학습에 전용 프로젝트 또는 VPC를 사용하세요.
    • 실행 중에 민감한 데이터와 코드를 보호하려면 학습 워크로드에 차폐 VM 또는 컨피덴셜 컴퓨팅을 사용하세요.
    • 네트워크 인프라를 보호하고 배포된 모델에 대한 액세스를 제어하려면 VPC, 방화벽, 보안 경계를 사용하세요.
  • Vertex AI 학습을 사용하는 경우 다음 방법을 사용하여 컴퓨팅 인프라를 보호할 수 있습니다.

    • 다른 승인된 Google Cloud 서비스와 비공개로 통신하고 공개 트래픽에 노출되지 않는 커스텀 작업을 학습시키려면 Private Service Connect 인터페이스를 설정하세요.
    • 공개 IP 주소를 사용할 때보다 네트워크 보안을 강화하고 네트워크 지연 시간을 줄이려면 비공개 IP 주소를 사용하여 학습 작업에 연결하세요. 자세한 내용은 커스텀 학습에 비공개 IP 사용을 참고하세요.
  • GKE 또는 Cloud Run을 사용하여 맞춤 환경을 설정할 때는 다음 옵션을 고려하세요.

  • 모델 학습에 Dataproc을 사용하는 경우 Dataproc 보안 권장사항을 따르세요.

배포를 보호하려면 다음을 고려하세요.

  • 모델을 배포할 때는 Model Registry를 사용하세요. 컨테이너에 모델을 배포하는 경우 GKE Sandbox 및 Container-Optimized OS를 사용하여 보안을 강화하고 워크로드를 격리하세요. 사용자 역할 및 책임에 따라 Model Garden의 모델에 대한 액세스를 제한합니다.
  • 모델 API를 보호하려면 Apigee 또는 API 게이트웨이를 사용하세요. 악용을 방지하려면 API 키, 인증, 승인, 비율 제한을 구현하세요. 모델 API에 대한 액세스를 제어하려면 API 키와 인증 메커니즘을 사용하세요.
  • 예측 중에 모델에 대한 액세스를 보호하려면 Vertex AI Inference를 사용하세요. 데이터 무단 반출을 방지하려면 VPC 서비스 제어 경계를 사용하여 비공개 엔드포인트를 보호하고 기본 모델에 대한 액세스를 관리하세요. 비공개 엔드포인트를 사용하여 VPC 네트워크 내에서 모델에 대한 액세스를 사용 설정합니다. IAM은 비공개 엔드포인트에 직접 적용되지 않지만 타겟 서비스는 IAM을 사용하여 모델에 대한 액세스를 관리합니다. 온라인 예측에는 Private Service Connect를 사용하는 것이 좋습니다.
  • 모델 배포와 관련된 API 호출을 추적하려면 Vertex AI용 Cloud 감사 로그를 사용 설정하세요. 관련 API 호출에는 엔드포인트 생성, 모델 배포, 구성 업데이트와 같은 활동이 포함됩니다.
  • 인프라를 Google Cloud 에지 위치로 확장하려면 Google Distributed Cloud 솔루션을 고려하세요. 완전히 오프라인인 솔루션의 경우 Google Cloud에 연결할 필요가 없는 Distributed Cloud air-gapped를 사용할 수 있습니다.
  • 배포를 표준화하고 규제 및 보안 요구사항을 준수하려면 Assured Workloads를 사용하세요.

AI 아티팩트에 대한 SLSA 가이드라인 준수

모델, 소프트웨어 패키지와 같은 AI 관련 아티팩트에 관한 표준 소프트웨어 아티팩트에 대한 공급망 등급 (SLSA) 가이드라인을 따르세요.

SLSA는 소프트웨어 아티팩트의 무결성을 개선하고 조작을 방지하는 데 도움이 되도록 설계된 보안 프레임워크입니다. SLSA 가이드라인을 준수하면 AI 및 ML 파이프라인과 파이프라인에서 생성되는 아티팩트의 보안을 강화할 수 있습니다. SLSA 준수는 다음과 같은 이점을 제공할 수 있습니다.

  • AI 및 ML 아티팩트의 신뢰도 향상: SLSA는 모델과 소프트웨어 패키지가 변조되지 않도록 지원합니다. 사용자는 모델과 소프트웨어 패키지를 소스로 추적할 수도 있으므로 아티팩트의 무결성과 신뢰성에 대한 사용자의 신뢰도가 높아집니다.
  • 공급망 공격 위험 감소: SLSA는 악성 코드를 삽입하거나 빌드 프로세스를 침해하는 공격과 같이 소프트웨어 공급망의 취약점을 악용하는 공격의 위험을 완화하는 데 도움이 됩니다.
  • 보안 상황 강화: SLSA는 AI 및 ML 시스템의 전반적인 보안 상황을 강화하는 데 도움이 됩니다. 이 구현은 공격 위험을 줄이고 가치 있는 애셋을 보호하는 데 도움이 될 수 있습니다.

Google Cloud에서 AI 및 ML 아티팩트에 SLSA를 구현하려면 다음을 수행하세요.

  1. SLSA 수준 이해: 다양한 SLSA 수준과 요구사항을 숙지합니다. 수준이 높아질수록 제공되는 무결성도 높아집니다.
  2. 현재 수준 평가: SLSA 프레임워크에 따라 현재 관행을 평가하여 현재 수준을 파악하고 개선이 필요한 영역을 식별합니다.
  3. 목표 수준 설정: 위험 허용 범위, 보안 요구사항, AI 및 ML 시스템의 중요도를 기반으로 적절한 SLSA 수준을 결정합니다.
  4. SLSA 요구사항 구현: 목표 SLSA 수준을 충족하려면 다음을 포함할 수 있는 필요한 제어 및 관행을 구현하세요.

    • 소스 관리: Git과 같은 버전 제어 시스템을 사용하여 코드 및 구성의 변경사항을 추적합니다.
    • 빌드 프로세스: Cloud Build와 같이 빌드를 보호하는 데 도움이 되는 서비스를 사용하고 빌드 프로세스가 스크립팅되거나 자동화되었는지 확인합니다.
    • 출처 생성: 빌드 프로세스, 소스 코드, 종속 항목 등 아티팩트가 빌드된 방식에 관한 세부정보를 캡처하는 출처 메타데이터를 생성합니다. 자세한 내용은 Vertex ML Metadata 추적실행 및 아티팩트 추적을 참고하세요.
    • 아티팩트 서명: 아티팩트에 서명하여 진위성과 무결성을 확인합니다.
    • 취약점 관리: 아티팩트와 종속 항목에 취약점이 있는지 정기적으로 검사합니다. Artifact Analysis와 같은 도구를 사용합니다.
    • 배포 보안: 이 문서에 설명된 관행과 같이 시스템을 보호하는 데 도움이 되는 배포 관행을 구현합니다.
  5. 지속적인 개선: SLSA 구현을 모니터링하고 개선하여 새로운 위협과 취약점에 대응하고 더 높은 SLSA 수준을 달성하세요.

검증된 사전 빌드 컨테이너 이미지 사용

MLOps 단계의 단일 장애 지점을 방지하려면 종속 항목 관리가 서로 다른 작업을 서로 다른 컨테이너로 격리하세요. 예를 들어 특성 엔지니어링, 학습 또는 미세 조정, 추론 작업에 별도의 컨테이너를 사용합니다. 이 접근 방식을 사용하면 ML 엔지니어가 환경을 제어하고 맞춤설정할 수 있습니다.

조직 전체에서 MLOps 일관성을 높이려면 사전 빌드된 컨테이너를 사용하세요. 다음 권장사항을 사용하여 확인되고 신뢰할 수 있는 기본 플랫폼 이미지의 중앙 저장소를 유지합니다.

  • 표준화된 기본 컨테이너를 빌드하고 관리하는 중앙 플랫폼팀을 조직에서 유지합니다.
  • Vertex AI에서 AI 및 ML을 위해 특별히 제공하는 사전 빌드된 컨테이너 이미지를 확장합니다. 조직 내 중앙 저장소에서 컨테이너 이미지를 관리합니다.

Vertex AI는 학습 및 추론을 위해 다양한 사전 빌드된 딥 러닝 컨테이너를 제공하며 커스텀 컨테이너를 사용할 수도 있습니다. 작은 모델의 경우 컨테이너에 모델을 로드하면 추론 지연 시간을 줄일 수 있습니다.

컨테이너 관리의 보안을 개선하려면 다음 권장사항을 고려하세요.

  • Artifact Registry를 사용하여 다양한 형식의 컨테이너 이미지 저장소를 만들고, 저장하고, 관리합니다. Artifact Registry는 IAM으로 액세스 제어를 처리하며 관측 가능성 및 취약점 평가 기능이 통합되어 있습니다. Artifact Registry를 사용하면 컨테이너 보안 기능을 사용 설정하고, 컨테이너 이미지를 스캔하고, 취약점을 조사할 수 있습니다.
  • Cloud Build로 지속적 통합 단계를 실행하고 컨테이너 이미지를 빌드합니다. 이 단계에서 종속성 문제가 강조 표시될 수 있습니다. Cloud Build에서 빌드한 이미지만 배포하려면 Binary Authorization을 사용하면 됩니다. 공급망 공격을 방지하려면 Cloud Build로 빌드한 이미지를 Artifact Registry에 배포하세요. SonarQube, PyLint, OWASP ZAP와 같은 자동화된 테스트 도구를 통합합니다.
  • AI 및 ML 워크로드용 GPU 또는 TPU에 최적화된 GKE 또는 Cloud Run과 같은 컨테이너 플랫폼을 사용합니다. GKE 클러스터의 컨테이너에 대한 취약점 스캔 옵션을 고려하세요.

GPU용 컨피덴셜 컴퓨팅 고려

사용 중 데이터를 보호하려면 컨피덴셜 컴퓨팅을 사용하면 됩니다. 기존 보안 조치는 저장 데이터와 전송 중 데이터를 보호하지만 컨피덴셜 컴퓨팅은 처리 중에 데이터를 암호화합니다. GPU용 컨피덴셜 컴퓨팅을 사용하면 민감한 학습 데이터와 모델 파라미터를 무단 액세스로부터 보호할 수 있습니다. 권한이 있는 클라우드 사용자 또는 기본 인프라에 액세스할 수 있는 잠재적 공격자의 무단 액세스를 방지하는 데도 도움이 됩니다.

GPU용 컨피덴셜 컴퓨팅이 필요한지 확인하려면 데이터의 민감도, 규제 요구사항, 잠재적 위험을 고려하세요.

컨피덴셜 컴퓨팅을 설정하는 경우 다음 옵션을 고려하세요.

  • 범용 AI 및 ML 워크로드의 경우 NVIDIA T4 GPU가 있는 컨피덴셜 VM 인스턴스를 사용하세요. 이러한 VM 인스턴스는 사용 중인 데이터의 하드웨어 기반 암호화를 제공합니다.
  • 컨테이너화된 워크로드의 경우 Confidential GKE Node를 사용합니다. 이러한 노드는 포드에 안전하고 격리된 환경을 제공합니다.
  • 워크로드가 안전한 실제 엔클레이브에서 실행되도록 하려면 컨피덴셜 VM에서 제공하는 증명 보고서를 확인하세요.
  • 성능, 리소스 사용률, 보안 이벤트를 추적하려면 Monitoring 및 Logging을 사용하여 컨피덴셜 컴퓨팅 리소스와 Confidential GKE Node를 모니터링하세요.

입력 확인 및 보호

입력이 최종 사용자에서 비롯된 것인지 아니면 다른 자동화된 시스템에서 비롯된 것인지에 관계없이 AI 시스템에 대한 모든 입력을 신뢰할 수 없는 것으로 취급합니다. AI 시스템을 안전하게 유지하고 의도한 대로 작동하도록 하려면 잠재적인 공격 벡터를 조기에 감지하고 정리해야 합니다.

입력을 확인하고 보호하려면 다음 권장사항을 고려하세요.

생성형 AI 시스템을 보호하는 데 도움이 되는 관행 구현

프롬프트를 코드와 마찬가지로 보안에 중요한 애플리케이션 구성요소로 취급합니다. 사전 예방적 설계, 자동화된 스크리닝, 규율 있는 수명 주기 관리를 결합한 심층 방어 전략을 구현합니다.

생성형 AI 프롬프트를 보호하려면 보안을 고려하여 설계하고, 사용 전에 검토하고, 수명 주기 전반에 걸쳐 관리해야 합니다.

프롬프트 설계 및 엔지니어링의 보안을 개선하려면 다음 방법을 고려하세요.

  • 명확성을 위해 프롬프트 구조화: Vertex AI Studio 프롬프트 관리 기능을 사용하여 모든 프롬프트를 설계하고 테스트합니다. 프롬프트는 명확하고 모호하지 않은 구조를 가져야 합니다. 역할을 정의하고, 퓨샷 예시를 포함하고, 구체적이고 제한된 지침을 제공합니다. 이러한 방법을 사용하면 모델이 보안 허점을 만드는 방식으로 사용자의 입력을 잘못 해석할 위험이 줄어듭니다.
  • 강력성과 그라운딩을 위해 입력을 테스트: 비정상적이고, 형식이 잘못되었으며, 악의적인 입력에 대해 모든 시스템을 선제적으로 테스트하여 비정상 종료나 안전하지 않은 출력을 방지합니다. 레드팀 테스트를 사용하여 실제 공격을 시뮬레이션합니다. Vertex AI 파이프라인의 표준 단계로 견고성 테스트를 자동화합니다. 다음 테스트 기법을 사용할 수 있습니다.

    • 퍼징 테스트
    • PII, 민감한 입력, SQL 삽입에 대해 직접 테스트합니다.
    • 멀웨어가 포함되거나 프롬프트 정책을 위반할 수 있는 멀티모달 입력을 스캔합니다.
  • 다층 방어 구현: 여러 방어 수단을 사용하고 단일 방어 수단에 의존하지 마세요. 예를 들어 검색 증강 생성 (RAG) 기반 애플리케이션의 경우 별도의 LLM을 사용하여 수신되는 사용자 의도를 분류하고 악성 패턴을 확인합니다. 그런 다음 해당 LLM은 최종 대답을 생성하는 더 강력한 기본 LLM에 요청을 전달할 수 있습니다.

  • 입력 내용 삭제 및 유효성 검사: 외부 입력 또는 사용자 제공 입력을 프롬프트에 통합하기 전에 애플리케이션 코드에서 모든 입력을 필터링하고 검증합니다. 이 검증은 간접적인 프롬프트 삽입을 방지하는 데 중요합니다.

자동 프롬프트 및 응답 스크리닝의 경우 다음 관행을 고려하세요.

  • 포괄적인 보안 서비스 사용: Model Armor와 같은 전용 모델 독립적인 보안 서비스를 LLM의 필수 보호 레이어로 구현합니다. Model Armor는 프롬프트 인젝션, 탈옥 시도, 유해한 콘텐츠와 같은 위협이 있는지 프롬프트와 대답을 검사합니다. 모델이 민감한 학습 데이터나 지식 재산을 대답에 유출하지 않도록 하려면 Model Armor와 함께 민감한 데이터 보호 통합을 사용하세요. 자세한 내용은 Model Armor 필터를 참고하세요.
  • 상호작용 모니터링 및 로깅: 모델 엔드포인트의 모든 프롬프트와 대답에 대한 자세한 로그를 유지합니다. 로깅을 사용하여 이러한 상호작용을 감사하고, 오용 패턴을 식별하고, 배포된 모델에 대해 발생할 수 있는 공격 벡터를 감지합니다.

프롬프트 수명 주기 관리를 안전하게 유지하려면 다음 관행을 고려하세요.

  • 프롬프트 버전 관리 구현: 모든 프로덕션 프롬프트를 애플리케이션 코드처럼 취급합니다. Git과 같은 버전 제어 시스템을 사용하여 변경사항의 전체 기록을 만들고, 공동작업 표준을 적용하고, 이전 버전으로 롤백할 수 있습니다. 이 핵심 MLOps 관행은 안정적이고 안전한 AI 시스템을 유지하는 데 도움이 됩니다.
  • 프롬프트 관리 중앙화: 중앙 저장소를 사용하여 버전이 지정된 모든 프롬프트를 저장, 관리, 배포합니다. 이 전략은 환경 전반에서 일관성을 적용하며 전체 애플리케이션을 재배포하지 않고도 런타임 업데이트를 사용 설정합니다.
  • 정기적인 감사 및 레드팀 테스트 실시: LLM 애플리케이션을 위한 OWASP 상위 10개에 나열된 것과 같은 알려진 취약점에 대해 시스템의 방어력을 지속적으로 테스트합니다. AI 엔지니어는 공격자가 약점을 악용하기 전에 약점을 발견하고 해결하기 위해 선제적으로 자체 애플리케이션을 레드팀 테스트해야 합니다.

AI 시스템에 대한 악성 쿼리 방지

이 문서에서 앞에서 설명한 인증 및 승인과 함께 악의적인 입력으로부터 AI 시스템을 보호하기 위한 추가 조치를 취할 수 있습니다. 공격자가 인증 및 승인 프로토콜을 모두 우회한 후 시스템을 내부적으로 공격하려고 시도하는 인증 후 시나리오에 대비하여 AI 시스템을 준비해야 합니다.

인증 후 공격으로부터 시스템을 보호하는 데 도움이 되는 포괄적인 전략을 구현하려면 다음 요구사항을 적용하세요.

  • 네트워크 및 애플리케이션 레이어 보안: 모든 AI 애셋에 다중 레이어 방어를 설정합니다.

    • Model Registry의 모델 또는 BigQuery의 민감한 데이터의 데이터 무단 반출을 방지하는 보안 경계를 만들려면 VPC 서비스 제어를 사용하세요. 항상 테스트 실행 모드를 사용하여 경계를 적용하기 전에 경계의 영향을 검사하세요.
    • 노트북과 같은 웹 기반 도구를 보호하려면 IAP를 사용하세요.
    • 모든 추론 엔드포인트를 보호하려면 엔터프라이즈급 보안 및 거버넌스를 위해 Apigee를 사용하세요. 간단한 인증을 위해 API Gateway를 사용할 수도 있습니다.
  • 쿼리 패턴 이상 감시: 예를 들어 시스템의 취약점을 조사하는 공격자는 약간씩 다른 순차적 쿼리를 수천 개 보낼 수 있습니다. 정상적인 사용자 행동을 반영하지 않는 비정상적인 쿼리 패턴을 신고합니다.

  • 요청량 모니터링: 쿼리량이 갑자기 급증하면 서비스 거부 (DoS) 공격 또는 모델 리버스 엔지니어링 시도인 모델 도용 공격이 발생했음을 나타낼 수 있습니다. 비율 제한 및 제한을 사용하여 단일 IP 주소 또는 사용자의 요청 수를 제어합니다.

  • 지리적 및 시간적 이상 징후 모니터링 및 알림 설정: 정상 액세스 패턴의 기준을 설정합니다. 비정상적인 지리적 위치에서 또는 이상한 시간에 갑작스러운 활동이 발생하면 알림을 생성합니다. 예를 들어 오전 3시에 새 국가에서 로그인이 급증하는 경우입니다.

출력 모니터링, 평가, 대응 준비

AI 시스템은 인간의 의사 결정을 보강, 최적화 또는 자동화하는 출력을 생성하므로 가치를 제공합니다. AI 시스템과 애플리케이션의 무결성과 신뢰성을 유지하려면 출력이 안전하고 예상 매개변수 내에 있는지 확인하세요. 또한 사고에 대응하기 위한 계획도 필요합니다.

출력을 유지하려면 다음 권장사항을 고려하세요.

측정항목 및 보안 조치로 모델 성능 평가

AI 모델이 성능 기준을 충족하고, 보안 요구사항을 충족하며, 공정성 및 규정 준수 표준을 준수하는지 확인하려면 모델을 철저히 평가하세요. 배포 전에 평가를 실시한 다음 프로덕션에서 모델을 정기적으로 평가합니다. 위험을 최소화하고 신뢰할 수 있는 AI 시스템을 구축하려면 성능 측정항목과 구체적인 AI 보안 평가를 결합하는 포괄적인 평가 전략을 구현하세요.

모델의 견고성과 보안 상황을 평가하려면 다음 권장사항을 고려하세요.

  • MLOps 파이프라인에서 모델 서명 및 인증을 구현합니다.

    • 컨테이너화된 모델의 경우 Binary Authorization을 사용하여 서명을 확인합니다.
    • Vertex AI 엔드포인트에 직접 배포된 모델의 경우 배포 스크립트에서 맞춤 확인을 사용하여 확인합니다.
    • 모든 모델에 모델 서명을 위해 Cloud Build를 사용합니다.
  • 예상치 못한 입력 또는 적대적인 입력에 대한 모델의 복원력을 평가합니다.

    • 모든 모델에 대해 일반적인 데이터 손상과 잠재적으로 악의적인 데이터 수정이 있는지 모델을 테스트합니다. 이러한 테스트를 조정하려면 Vertex AI 학습 또는 Vertex AI Pipelines를 사용하면 됩니다.
    • 보안이 중요한 모델의 경우 적대적 공격 시뮬레이션을 실행하여 잠재적인 취약점을 파악합니다.
    • 컨테이너에 배포된 모델의 경우 Artifact Registry의 Artifact Analysis를 사용하여 기본 이미지의 취약점을 스캔합니다.
  • Vertex AI Model Monitoring을 사용하여 배포된 모델의 드리프트 및 편향을 감지합니다. 그런 다음 이러한 통계를 재평가 또는 재학습 주기에 다시 제공합니다.

  • Vertex AI의 모델 평가를 Vertex AI Pipelines에서 파이프라인 구성요소로 사용합니다. 모델 평가 구성요소를 자체적으로 또는 다른 파이프라인 구성요소와 함께 실행할 수 있습니다. 정의된 측정항목 및 데이터 세트를 기준으로 모델 버전을 비교합니다. 계보 및 추적을 위해 평가 결과를 Vertex ML Metadata에 로깅합니다.

  • Gen AI Evaluation Service를 사용하거나 이를 기반으로 빌드하여 선택한 모델을 평가하거나 맞춤 인간 평가 워크플로를 구현합니다.

공정성, 편향, 설명 가능성, 사실성을 평가하려면 다음 권장사항을 고려하세요.

  • 사용 사례에 맞는 공정성 측정항목을 정의한 다음 다양한 데이터 슬라이스에서 잠재적인 편향이 있는지 모델을 평가합니다.
  • 특성과 그 결과로 발생하는 예측이 도메인 지식 및 윤리적 가이드라인과 일치하도록 모델 예측을 유도하는 특성을 파악합니다.
  • Vertex Explainable AI를 사용하여 모델의 특성 기여 분석을 가져옵니다.
  • Gen AI Evaluation Service를 사용하여 측정항목을 계산합니다. 테스트의 소스 검증 단계에서 서비스의 그라운딩 측정항목은 제공된 소스 텍스트에 대한 사실성을 확인합니다.
  • 사용자 수준에서 두 번째 소스 확인 레이어를 용이하게 하기 위해 모델 출력에 그라운딩을 사용 설정합니다.
  • Google의 AI 원칙을 검토하고 AI 애플리케이션에 맞게 조정하세요.

프로덕션에서 AI 및 ML 모델 출력 모니터링

프로덕션 환경에서 AI 및 ML 모델과 지원 인프라를 지속적으로 모니터링합니다. 모델 출력 품질 또는 성능 저하, 보안 취약점, 규정 준수 의무 위반을 신속하게 식별하고 진단하는 것이 중요합니다. 이 모니터링은 시스템 안전, 안정성, 신뢰성을 유지하는 데 도움이 됩니다.

AI 시스템 출력에서 이상치, 위협, 품질 저하를 모니터링하려면 다음 권장사항을 고려하세요.

  • 모델 출력을 위해 모델 모니터링을 사용하여 예측 분포의 예기치 않은 변화나 신뢰도가 낮은 모델 예측의 급증을 추적합니다. 생성형 AI 모델의 출력을 적극적으로 모니터링하여 안전하지 않거나, 편향되었거나, 주제에서 벗어나거나, 악의적인 콘텐츠가 생성되지 않는지 확인합니다. Model Armor를 사용하여 모든 모델 출력을 검사할 수도 있습니다.
  • 특정 오류 패턴을 식별하거나, 품질 지표를 포착하거나, 애플리케이션 수준에서 유해하거나 규정을 준수하지 않는 출력을 감지합니다. 이러한 문제를 찾으려면 Monitoring 대시보드에서 맞춤 모니터링을 사용하고 Logging의 로그 기반 측정항목을 사용하세요.

보안 관련 신호 및 무단 변경사항을 모니터링하려면 다음 권장사항을 고려하세요.

  • AI 모델, Cloud Storage 또는 BigQuery의 데이터 세트, MLOps 파이프라인 구성요소에 대한 무단 액세스 시도를 식별합니다. 특히 AI 리소스의 IAM 권한에서 예상치 못한 변경사항이나 승인되지 않은 변경사항을 식별합니다. 이러한 활동을 추적하고 의심스러운 패턴이 있는지 검토하려면 Cloud 감사 로그의 관리자 활동 감사 로그 및 데이터 액세스 감사 로그를 사용하세요. 보안 잘못된 구성을 표시하고 AI 애셋과 관련된 잠재적 위협을 표시할 수 있는 Security Command Center의 발견 항목을 통합합니다.
  • 모델을 리버스 엔지니어링하거나 데이터를 유출하려는 시도를 나타낼 수 있는 요청량이 많은 출력 또는 의심스러운 소스의 요청을 모니터링합니다. Sensitive Data Protection을 사용하여 민감한 데이터의 무단 반출을 모니터링할 수도 있습니다.
  • 로그를 보안 운영에 통합합니다. Google Security Operations를 사용하여 AI 시스템의 사이버 위협을 감지, 오케스트레이션, 대응하세요.

AI 모델을 제공하는 인프라의 운영 상태와 성능을 추적하려면 다음 권장사항을 고려하세요.

  • 서비스 제공 또는 모델 성능에 영향을 줄 수 있는 운영 문제를 식별합니다.
  • 지연 시간, 오류 발생률, 트래픽 패턴을 위해 Vertex AI 엔드포인트를 모니터링합니다.
  • 실행 상태 및 오류에 대해 MLOps 파이프라인을 모니터링합니다.
  • Monitoring을 사용합니다. Monitoring은 사전 제작된 측정항목을 제공합니다. 엔드포인트 중단이나 파이프라인 실패와 같은 문제를 파악하는 데 도움이 되는 맞춤 대시보드를 만들 수도 있습니다.

알림 및 사고 대응 절차 구현

성능, 보안 또는 규정 준수 문제를 발견하면 효과적으로 대응하는 것이 중요합니다. 적절한 팀에 적시에 알림을 전송하려면 강력한 알림 메커니즘을 구현하세요. 이러한 문제를 효율적으로 관리, 억제, 해결하기 위해 포괄적이고 AI를 인식하는 사고 대응 절차를 수립하고 운영합니다.

식별한 AI 문제에 대한 강력한 알림 메커니즘을 설정하려면 다음 권장사항을 고려하세요.

  • 플랫폼의 모니터링 활동을 기반으로 관련 팀에 알리도록 조치를 취할 수 있는 알림을 구성합니다. 예를 들어 Model Monitoring에서 심각한 드리프트, 편향 또는 예측 이상치를 감지할 때 트리거되도록 알림을 구성합니다. 또는 Model Armor 또는 맞춤 모니터링 규칙에서 악의적인 입력 또는 안전하지 않은 출력을 신고할 때 트리거되도록 알림을 구성합니다.
  • Pub/Sub 통합을 통해 Slack, 이메일, SMS를 포함할 수 있는 명확한 알림 채널을 정의합니다. 심각도 및 담당 팀에 대한 알림 채널을 맞춤설정합니다.

AI 인식 사고 대응 계획을 개발하고 운영합니다. 구조화된 사고 대응 계획은 잠재적인 영향을 최소화하고 복구를 보장하는 데 매우 중요합니다. 이 계획을 맞춤설정하여 모델 변조, 드리프트로 인한 잘못된 예측, 프롬프트 인젝션, 생성형 모델의 안전하지 않은 출력과 같은 AI 관련 위험을 해결하세요. 효과적인 계획을 수립하려면 다음 주요 단계를 포함하세요.

  • 준비: 애셋과 취약점을 식별하고, 플레이북을 개발하고, 팀에 적절한 권한이 있는지 확인합니다. 이 단계에는 다음 작업이 포함됩니다.

    • 모델, 데이터 세트, 엔드포인트 또는 Vertex AI Feature Store 인스턴스와 같은 특정 Vertex AI 리소스와 같은 중요한 AI 애셋을 식별합니다.
    • 애셋의 잠재적 장애 모드 또는 공격 벡터를 식별합니다.
    • 조직의 위협 모델에 맞는 AI 관련 인시던트 플레이북을 개발합니다. 예를 들어 플레이북에는 다음이 포함될 수 있습니다.

      • Model Registry에서 버전 관리를 사용하는 모델 롤백
      • Vertex AI 학습의 긴급 재학습 파이프라인
      • BigQuery 또는 Cloud Storage에서 손상된 데이터 소스를 격리합니다.
    • IAM을 사용하여 대응팀이 인시던트 중에 필요한 도구에 대한 최소 권한 액세스 권한을 갖도록 합니다.

  • 식별 및 분류: 구성된 알림을 사용하여 잠재적인 인시던트를 감지하고 검증합니다. 조직에서 AI 관련 사고를 조사하거나 선언하는 방법에 관한 명확한 기준과 한계점을 설정합니다. 자세한 조사와 증거 수집을 위해서는 애플리케이션 로그와 서비스 로그에 로깅을 사용하고 관리 활동과 데이터 액세스 패턴에는 Cloud 감사 로그를 사용하세요. 보안팀은 Google SecOps를 사용하여 보안 원격 분석을 심층적으로 분석할 수 있습니다.

  • 격리: 영향을 받는 AI 시스템 또는 구성요소를 격리하여 추가 영향이나 데이터 유출을 방지합니다. 이 단계에는 다음 작업이 포함될 수 있습니다.

    • 문제가 있는 Vertex AI 엔드포인트를 사용 중지합니다.
    • 특정 IAM 권한을 취소합니다.
    • 방화벽 규칙 또는 Cloud Armor 정책을 업데이트합니다.
    • 비정상적으로 작동하는 Vertex AI 파이프라인을 일시중지합니다.
  • 근절: 사고의 근본 원인을 파악하고 제거합니다. 이 단계에는 다음 작업이 포함될 수 있습니다.

    • 커스텀 모델 컨테이너에서 취약한 코드를 패치합니다.
    • 모델에서 식별된 악성 백도어를 삭제합니다.
    • Vertex AI 학습에서 보안 재학습 작업을 시작하기 전에 포이즌 데이터를 정리합니다.
    • 안전하지 않은 구성을 업데이트합니다.
    • 특정 프롬프트 삽입 기법을 차단하도록 입력 유효성 검사 로직을 개선합니다.
  • 복구 및 안전한 재배포: 영향을 받는 AI 시스템을 알려진 정상 상태의 안전한 운영 상태로 복원합니다. 이 단계에는 다음 작업이 포함될 수 있습니다.

    • Model Registry에서 이전에 검증되고 신뢰할 수 있는 모델 버전을 배포합니다.
    • 코드나 시스템에 있을 수 있는 취약점의 모든 보안 패치를 찾아 적용해야 합니다.
    • IAM 권한을 최소 권한의 원칙으로 재설정합니다.
  • 사고 후 활동 및 교훈: 심각한 AI 사고를 해결한 후 철저한 사고 후 검토를 실시합니다. 이 검토에는 AI 및 ML, MLOps, 보안, 데이터 과학팀과 같은 모든 관련 팀이 참여합니다. 인시던트의 전체 수명 주기를 이해합니다. 이러한 통계를 사용하여 AI 시스템 설계를 개선하고, 보안 컨트롤을 업데이트하고, 모니터링 구성을 개선하고, AI 사고 대응 계획 및 플레이북을 개선합니다.

IT 및 보안 사고 관리와 같은 광범위한 조직 프레임워크와 AI 사고 대응을 통합하여 공동의 노력을 기울이세요. AI 관련 사고 대응을 조직 프레임워크에 맞추려면 다음을 고려하세요.

  • 에스컬레이션: 심각한 AI 인시던트를 중앙 SOC, IT, 법률 또는 관련 비즈니스 단위로 에스컬레이션하는 명확한 경로를 정의합니다.
  • 커뮤니케이션: 모든 내부 및 외부 사고 보고서와 업데이트에 대해 확립된 조직 채널을 사용합니다.
  • 도구 및 프로세스: AI 사고에 기존 엔터프라이즈 사고 관리 및 티켓팅 시스템을 사용하여 일관된 추적 및 가시성을 확보합니다.
  • 협업: 효과적인 AI 인시던트 대응을 위해 AI 및 ML, MLOps, 데이터 과학, 보안, 법률, 규정 준수 팀 간의 협업 프로토콜을 미리 정의합니다.

참여자

저자:

기타 참여자: