AI/MLOps에 대한 보안 정책 및 조언 문의드립니다

jerry · April 30, 2025, 11:38pm

AI/MPOps 시각에서의 특별히 고민해야하는 보안 정책과 조언을 듣고 싶습니다. Zero Trust, Shift Left, CNAPP, CIEM, CSPM, CWPP 등 다양한 보안 전략입장에서도 의견을 듣고 싶습니다.

jhkwon91 · November 30, 2025, 1:31pm

우선 AI/MLOps 보안에서 가장 중요한 포인트는 “모델·데이터·파이프라인”이 모두 공격 표면이 된다는 점입니다. 기존 애플리케이션과 달리 모델 자체가 탈옥(jailbreak), 데이터 오염(data poisoning), 프롬프트 조작(prompt injection) 같은 새로운 공격 벡터를 갖고 있기 때문에, 단순히 네트워크·IAM만 강화한다고 해결되기 어렵다는 이야기가 많습니다. 이 때문에 Zero Trust나 Shift Left 같은 기존 전략을 AI 맥락으로 확장해 적용하는 접근이 자연스럽게 언급됩니다.

Zero Trust 관점에서는 모델과 데이터를 “별도의 신뢰 경로”로 관리하는 것이 중요하다는 의견이 많습니다. 예를 들어 훈련 데이터 저장소, 피처 스토어, 모델 레지스트리, 추론 엔드포인트 각각에 대해 독립된 인증 정책을 적용하고, 필요한 경로에만 최소 권한을 부여하는 방식입니다. 특히 모델을 호출하는 API 경로는 테넌트별로 사전에 인증을 강제해 공격을 한정하는 구조가 많이 이야기되고 있습니다.

Shift Left 관점에서는 모델 개발 단계부터 보안을 녹여 넣는 방식이 강조됩니다. 데이터 품질 검증, 편향 검사, Drift 탐지, 모델 아티팩트 스캔, 파이프라인 내부에서의 코드/컨테이너 취약점 검사 등이 여기에 속합니다. MLOps 파이프라인이 실제 CI/CD와 유사한 구조를 갖고 있기 때문에, 모델 빌드 단계에서부터 “안전하지 않은 아티팩트가 프로덕션까지 가지 않도록 차단하는 구조”가 필요하다는 의견이 많았습니다.

CNAPP·CSPM 같은 클라우드 보안 프레임워크 관점에서는 전체 플랫폼의 표준화가 핵심으로 언급됩니다. AI 워크로드가 GPU 노드, 고성능 스토리지, 외부 API 연동 같은 복잡한 요소를 포함하다 보니, 클라우드 계정·네트워크·스토리지·런타임 전반에 대한 구성이 일관적으로 보안 정책을 만족해야 한다는 내용입니다. 예를 들어 GPU 노드에 대한 권한을 제한하거나, 모델 서버가 외부로 나가는 egress를 제한하는 정책이 실제 사례로 종종 언급됩니다.

CWPP 관점에서는 컨테이너 런타임 보호가 중요한데, AI 워크로드는 컨테이너 내부에서 고성능 라이브러리를 많이 사용하기 때문에 공격자가 이를 악용하는 경우를 고려해야 합니다. 실행 무결성(integrity), 런타임 행위 모니터링, 모델 서버 이미지에 대한 취약점 스캔 등이 여기에 포함됩니다.

CIEM 관점에서는 테넌트별 IAM을 분리해 모델·데이터·스토리지 접근 범위를 최소화하는 구성이 핵심이라고 합니다. 실무에서는 테넌트별 서비스 계정을 분리하고, 훈련/추론 작업이 사용하는 권한을 별도로 관리하는 방식이 자주 언급되는 구조였습니다.

종합해보면, AI/MLOps 보안은 기존 DevOps 보안 전략을 그대로 가져오는 것이 아니라, 모델 중심의 새로운 공격 벡터를 보완하는 방향으로 기존 전략을 확장하는 접근이 필요하다는 의견이 많았습니다. Zero Trust는 모델·데이터 접근 제어 중심으로, Shift Left는 모델 개발 단계 보강 중심으로, CNAPP/CSPM/CWPP는 클라우드 환경 전체의 기반을 강화하는 역할로 자리 잡는 흐름으로 보였습니다. 제가 본 관찰 범위에서는 이런 방식의 결합이 가장 많이 언급되는 방향이었습니다.