jaehwan portfolio / experience
포트폴리오로 돌아가기
Project 04 · AI / Security Research

Server PC 이상탐지 AI 모듈 개발

군 훈련체계 제안 및 운영 고도화를 위해 서버 PC 이상을 조기 탐지하고, LLM 기반 조치 가이드를 자동 제시하는 AI 운영지원 모듈을 설계·개발한 프로젝트입니다.

DomainAIOps / Defense Training System
StackPython, AutoEncoder, LLM, RAG
FocusAnomaly Detection, Action Recommendation
Outcome이상탐지-원인분석-조치가이드 자동화 흐름 설계

Overview

다수 장비를 운영하는 훈련체계 환경에서 장애를 조기에 감지하고 운영자가 즉시 대응할 수 있도록 지원하기 위해 설계되었습니다. 단순 이상 알림을 넘어서, 이상 원인 해석과 후속 조치 제안까지 연결되는 운영형 AI 모듈 구현을 목표로 했습니다.

Role

  • CPU/GPU 온도, 자원 사용률 등 시계열 운영 데이터를 기반으로 AutoEncoder 이상탐지 모델 설계
  • 탐지 결과를 운영 대시보드에서 즉시 판단 가능한 형태로 표준화하고 경보 레벨 체계 구성
  • LLM + RAG 구조를 통해 이상 발생 시 조치 절차/점검 포인트를 자동 추천하는 흐름 설계
  • 해군 과학화 전술훈련체계 제안의 AI 이상탐지 항목에 적용 가능한 아키텍처로 문서화

구현

  • 고정 임계치 방식의 오탐을 줄이기 위해 정상 상태 재구성 오차 기반 판단을 적용하고, 운영 환경 변동성을 반영한 탐지 기준을 구성했습니다.
  • 탐지 결과를 단일 이벤트로 끝내지 않고 원인 후보, 조치 순서, 후속 확인 항목까지 이어지는 대응 시나리오로 확장했습니다.
  • 모델 성능 지표뿐 아니라 현장 적용성을 중요 기준으로 두고, 운영자가 즉시 실행 가능한 문장형 가이드를 제공하도록 설계했습니다.

회고

운영형 AI의 핵심은 정확도 자체보다 현장에서 즉시 행동으로 전환되는 안내 체계임을 확인했습니다. 이후 AI 기능 설계 시 모델-운영-문서화를 하나의 제품 관점으로 통합하는 기준을 확립했습니다.