지난 12월 13일 토요일, 오후 2시 CloudBro 오픈 프로젝트 시즌 2 아이디어 피칭데이가 진행되었습니다. 11월 말 팀 결성 후 12월 초 일주일 간의 기술 검증단의 사전 아이디어 피드백을 반영하여, 본격적인 구현에 앞서 아이디어에 대한 피칭을 진행하는 자리였습니다. 약 2시간 동안 시즌 2 5개 팀의 열정 넘치는 발표와 기술검증단의 날카로운 Q&A가 어우러져 심도있는 기술 토론이 진행되었습니다. 앞으로 생태계를 이끌어갈 현업 엔지니어들의 반짝이는 아이디어와 깊이 있는 기술 피드백을 공유합니다. ![]()
![]()
Dr.Kube: Kubernetes를 위한 AI 자가진단 에이전트 (발표자 : 김태빈)
주제: 클러스터의 '다잉 메시지’를 분석해 스스로 장애를 진단하고 해결 가이드까지 제공하는 지능형 AI 에이전트
발표 내용: Kubernetes의 고질적인 문제인 장애 발생 시 MTTR(평균 복구 시간)을 단축하는 것을 목표로 합니다. LangGraph 기반 추론 루프를 통해 근본 원인을 탐색하고, Slack 등 메신저로 운영자에게 즉각적인 조치 가이드라인을 제공합니다. 운영자의 승인 하에 명령을 수행하여 안전성을 확보하는 Safe AI Ops 생태계를 제시했습니다.
주요 Q&A:
- LLM 및 네트워크 장애 대응: Google LLM 자체 장애나 egress 네트워크 문제 발생 시 대응 방안에 대한 질문
- 진단 정밀도 향상: Stack trace, 소스코드 분석을 연계하여 더 정밀한 진단 기능을 로드맵에 포함할지에 대한 논의
- Custom Resource(CRD) 지원: 도메인 특화된 컨텍스트가 중요한 CRD 환경에서의 장애 진단 및 지원 계획에 대한 질문 제기
- LLM 컨텍스트 강화: 기존 k8s 구성 정보, 서비스 정책, 최신 인시던트 리포트 등을 LLM에 컨텍스트로 제공하여 정확도를 높이는 아이디어 제안
자 드가자: AI 기반 Kube-RCA 및 대응 자동화 (발표자 : 최보현)
주제: AI를 활용한 Kubernetes 인시던트 알람 분석, 근본 원인 분석(RCA), 그리고 대응 가이드 자동화 도구
발표 내용: 완전 자동화보다는 해결 전 단계의 '정확성’에 집중합니다. 장애 발생 시 Prometheus, 로그, 메트릭 등 데이터를 자동으로 수집하고, LLM과 벡터 DB를 활용해 과거 유사 장애 사례 Top 5를 비교하여 신속한 대응 가이드를 제공합니다. 특히 주니어 엔지니어의 경험 의존도를 낮추는 것을 목표로 합니다.
주요 Q&A:
- 분석 깊이: 정확한 RCA를 위해 개발 단계의 소스코드나 메모리 덤프 분석 기능 추가에 대한 제안
- 데이터 자산화: 벡터 DB에 장애 발생 '사실’뿐만 아니라 '대응 기록’도 함께 저장하여 LLM이 더 의미 있는 인사이트를 도출하도록 하는 방안에 대한 논의
- 성능 및 비용: 임베딩 및 유사도 검색 시 발생할 수 있는 성능과 비용 문제에 대한 고려가 있었는지 질문
- 아키텍처: 초기 단계에서 아키텍처 복잡성을 피하기 위해 전용 벡터 DB 대신 pgvector를 사용하는 것에 대한 질문
Gopedia: 고효율 데이터 백과사전 (발표자 : 신동호)
주제: 위키, 슬랙, 지라 등 여러 플랫폼에 흩어진 데이터를 저장, 분류, 연결하여 효과적으로 검색하고 활용하는 백과사전 서비스
발표 내용: 데이터의 '분류, 연결, 소통’을 3단계 핵심 기능으로 제시했습니다. MVP 목표는 2단계(데이터 임베딩 및 LangChain 활용)까지 구현하는 것입니다. Gopedia는 전체 서비스의 ‘뇌’ 기능을 담당하며, UI는 별도 서비스(메타뷰어)로 개발될 예정입니다.
주요 Q&A:
- 경쟁력 및 차별점: 다수의 유사 서비스와 비교했을 때 Gopedia만의 해자(moat)는 무엇이며, 단순 연동을 넘어 원시 메타데이터까지 처리하는 복합적 활용이 어떻게 강점이 되는지에 대한 심도 있는 질문
- 데이터 확보 및 RAG: 상용화를 위해 충분한 데이터를 어떻게 확보할 것이며, RAG의 성능을 높이기 위해 메타데이터를 어떻게 분류하고 관리할 것인지에 대한 전략적 질문 제기
- 핵심 철학: '초고속 인덱싱’이 Gopedia의 핵심 차별점인지에 대한 질문
KubeAI: AI 어시스턴트가 탑재된 쿠버네티스 대시보드 (발표자 : 김영주)
주제: 기존 쿠버네티스 대시보드에 AI 챗봇을 결합하여 초심자도 자연어 명령으로 쉽게 클러스터를 관리할 수 있도록 지원
발표 내용: K9S, kubectl-ai 등에서 영감을 얻었지만, CLI 환경의 부담을 줄이고 GUI에 통합한 것이 차별점입니다. 현재 보고 있는 리소스, 로그 등을 AI 컨텍스트로 전달해 더 정확한 답변을 제공하고, UI에서 해당 리소스를 하이라이팅하는 기능도 구상 중입니다.
주요 Q&A:
- 기능 확장성: 단순 정보 조회를 넘어 비용 관리(FinOps), 보안 취약점 분석 등 다양한 관리 목적을 지원하는 로드맵에 대한 질문이 있었습니다.
- 보안: LLM API 키와 같은 민감 정보를 어떻게 안전하게 보관할 것인지(Sealed Secrets 제안), 그리고 엔터프라이즈 환경의 필수 요건인 SSO 인증 지원 계획에 대한 질문이 있었습니다.
- UI/UX: 더 유연하고 확장성 높은 UI를 위해 Kubernetes 대시보드 대신 Headlamp와 같은 대안을 고려해볼 것을 제안했습니다.
- 컨텍스트 강화: 시스템의 최소 스펙, 요구사항 등의 정보를 AI 컨텍스트에 추가하여 더 정확한 리포트를 생성하는 방안에 대한 논의가 있었습니다.
HoneyBeePF: 경량 eBPF 기반 선택적 관측성 플랫폼 (발표자 : 서준우)
주제: 필요한 데이터만 선택적으로 수집하는 경량 eBPF 기반 관측성(Observability) 플랫폼
발표 내용: 기존 관측성 도구들의 과도한 리소스 사용, 코드 변경 필요, 복잡한 설정 등의 문제를 해결하는 것을 목표로 합니다. Rust 기반으로 개발되며, 코드 변경 없이 헬름 차트로 간단하게 배포하여 커널 레벨에서 데이터를 수집합니다. 이를 통해 비용을 절감하고 성능을 최적화할 수 있습니다.
주요 Q&A:
- 도입 난이도: 리눅스 커널과 밀접하게 연관되어 있는데, CSP들이 편집한 커널을 사용하는 환경에서 도입 난이도가 어느 정도일지에 대한 질문이 있었습니다.
- 배포 방식: 인프라 관점에서 데몬셋(DaemonSet) 방식이 더 적합해 보이며, 데몬셋 사용이 제한된 환경을 위해 사이드카(Sidecar) 방식을 함께 고려하는 것에 대한 토론이 있었습니다.
- 활용 사례: 보안 및 해킹 탐지 영역에서 eBPF의 경량성과 선택적 데이터 수집 능력이 큰 장점이 될 수 있다는 의견과 함께, 사용자들이 쉽게 활용할 수 있는 대시보드 템플릿 제공에 대한 제안이 있었습니다.


