쿠버네티스에서 AI/HPC 배치를 효율적으로! - Volcano (CNCF AI Project)

Volcano GitHub 요약

Volcano는 쿠버네티스 상에서 고성능 워크로드(특히 AI/ML, 빅데이터, HPC)를 위한 배치 스케줄러입니다. 쿠버네티스의 기본 스케줄링 기능을 확장하여, 자원 예약, 작업 의존성, 공정한 큐잉, 우선순위 처리 등 복잡한 스케줄링 정책을 제공합니다.

:light_bulb: 프로젝트 핵심 기능

  1. Gang Scheduling 관련 컨테이너 묶음을 함께 스케줄링하며, 일부만 배포되면 실패하도록 하여 리소스 낭비를 방지 .

  2. 정교한 스케줄링 알고리즘 우선순위(priority), DRF, binpack 등 다양한 정책을 지원 cncf.io+1github.com+1.

  3. 이종 하드웨어 및 자원 최적화 GPU/NPU, 네트워크 토폴로지 인식, 동적 리소스 분배 향상. AI 및 LLM 트레이닝과 같은 시나리오에 특화 .

  4. 멀티 클러스터 워크로드 분배, 장애 복구, Elastic 큐 지원 큰 배치 작업 및 온라인/오프라인 워크로드 공존 환경에서 뛰어난 활용도를 보임 .

Volcano 평가 및 사용 후기

:chart_increasing: 커뮤니티 & 채택 현황

  • 800명 이상의 기여자, 30개국 이상 참여, 수십 개 기업(60개 이상)이 프로덕션에서 사용 .

  • GitHub 상 Stars 4.8k, Fork 1.1k 이상, 활발한 구현 및 문서 커뮤니티 활동 github.com.


:compass: 로드맵 및 최신 릴리스

  • v1.11 (2025년 3월): AI/빅데이터/LLM 트레이닝 대응 강화를 위한 네트워크 토폴로지 인식, GPU 동적 분할, 멀티 클러스터 스케줄링, 체크포인트/장애 복구, Elastic 계층화 큐 등 추가 .

  • 향후 릴리스도 지속적으로 AI/HPC 배치 및 멀티 클러스터 스케줄링 집중 예정 .

1 Like