장애처리를 위한 AI 학습 사례가 있을까요?

장애 발생 시, 복구 시간을 단축하기 위해, 내부 기술 문서와 장애 정보, 로그 정보 등의 내부 데이터를 RAG 학습하고 파이프라인에 어떻게 연동하는 사례가 있을까요?

3 Likes

질문하신 의도랑 조금 거리는 있는것 같지만, 이런 글도 도움이 되실까요 ?

https://medium.com/@b0ld8/automated-incident-response-workflows-with-n8n-and-prometheus-0fbffdabc92f

개인적으로는 모델에 많은 정보를 다 먹여? 주기보다는, “생각과 판단 그리고 플래닝이 필요한 부분을 agent로”, ”실시간으로 시스템 확인이 필요한 부분을 mcp로” 적절히 구분해서 나에게 맞는 워크플로우를 구성하는 것이 맞지 않을까 정도로 생각하고 있습니다. RAG는 아무래도 레이턴시가 있을 수 있으니…. (참.. 저도 요즘 이 주제로 고민을 하고 있긴 합니다. :sweat_smile:)

1 Like

질문을 보니 10월에 클라우드브로 행사에서 봤던 장애 처리 SRE LLM 파이프라인 구축 사례가 떠오르네요~

1 Like