온프레미스 환경에서의 LLM 기반 chatops 구축 관련 질문

안녕하세요, 브로님들!

현재 온프레미스 환경에서 LLM 기반 ChatOps 시스템을 구축하는 프로젝트를 구상 중입니다.
GPU·CPU·메모리는 충분히 확보 가능한 환경이며, 사용하지 않고 남아있는 A100 GPU들을 적극 활용할 계획입니다.

아직 PoC 단계이고 경험이 많지 않아, 우선 구현하기 쉬운 기능부터 하나씩 완성도를 높여가려고 합니다.
지금 고려하고 있는 ChatOps + LLM의 주요 역할은 아래와 같습니다.

  1. 이상 징후 감지 + LLM 자동 판단
  • 모니터링 시스템(Prometheus, Alertmanager 등)에서
    이상 매트릭 발생 시 해당 데이터를 LLM에 전달

  • LLM이 1차 분석 및 원인 추론 → Slack/Mattermost 등으로 사용자에게 전달

2. 사전 정의된 Runbook/Action에 대한 자동 인가 요청

  • OSD down, Pod CrashLoop 등 특정 시나리오 발생 시
    LLM이 자동으로 대응 방안을 제안

  • 위험 작업은 ChatOps 상에서 사용자 승인(/approve) 절차 후 실행
    (예: Ansible, Terraform, Cephadm, kubectl 등)

3. Chat 기반 인프라 조회

  • 사용자가 Chat에 명령 형태로 입력하면
    서버 자원 정보, Ceph 상태, K8s 상태, 네트워크 정보 등 조회 결과를 반환

  • 예: /ceph status, /k8s pods, /vm info cmat08

온프레미스 ChatOps에 적합한 LLM 모델은 무엇일까요?

현재 고려 중인 모델은 아래와 같습니다.

  • Llama 3.1 70B

  • Qwen 2.5 72B

  • DeepSeek-R1 / DeepSeek-V2

  • (추가 추천 모델도 환영)

혹시 실제 온프레 환경에서 해당 모델들을 사용해보신 경험이 있으시다면
성능/안정성/메모리 요구사항/추론 품질 등 관련 후기를 듣고 싶습니다.


2) ChatOps 활용 방안 및 아키텍처 구성

LLM을 ChatOps에 붙여서 실제로 활용해보신 분들의 추천 구성이 궁금합니다.

  • LLM과 모니터링 시스템을 어떻게 연동하셨는지

  • GPT가 제안한 명령의 안전성 검증/Approval은 어떻게 처리하시는지

  • GitOps(ArgoCD, GitLab)와의 통합 경험

  • Ansible / Terraform / Cephadm / K8s API 등과의 자동화 연결 구조

  • Mattermost vs Slack vs Rocket.Chat 등 온프레 메시징 플랫폼 비교

경험 공유해주시면 큰 도움이 될 것 같습니다.


3) 단계별 접근 전략

처음부터 모든 기능을 넣기보다는
구현 난이도 대비 효과가 좋은 기능부터 시작해보려고 합니다.

혹시 경험상 “이 기능은 초기에 꼭 넣어라” 혹은
“이건 나중에 넣어도 된다” 같은 우선순위 조언이 있다면 부탁드립니다.
아직 PoC 단계라 다양한 의견이 필요합니다.
온프레 LLM 운영 경험이나 ChatOps 구축 경험 있으신 분들,
또는 비슷한 프로젝트를 진행 중이신 분들이 계시다면 조언 부탁드리겠습니다!

감사합니다

4 Likes