분산 컴퓨팅, ML/AI 오케스트레이션, Kubernetes Native 툴 - Kubeflow, kubeRay, Volcano, KubeDL

Ray 는 대규모 분산 컴퓨팅 및 AI/ML 워크로드 실행에 특화된 오픈소스 플랫폼인데, CNCF 프로젝트 입장에서 보면, Ray와 비슷하게 ‘분산 컴퓨팅’ 또는 ‘머신러닝 워크로드 오케스트레이션’을 지원하는 대표적 프로젝트를 소개해봅니다.

간단 비교 표

프로젝트 주여 기능/분야 분산 컴퓨팅 ML/AI 오케스트레이션 쿠버네티스 네이티브
Ray 분산 작업/AI/ML KubeRay 통해 지원
Kubeflow ML 파이프라인/분산학습
KubeRay Ray 클러스터 관리
Volcano 배치/고성능 컴퓨팅
KubeDL ML 워크로드 관리

●=강점, ○=부분 지원

1. Kubeflow

2. KubeRay

3. Volcano

  • 설명: 클라우드 네이티브 고성능 컴퓨팅(HPC) 및 배치 작업 관리에 초점을 둔 배치 스케줄러로, AI, 빅데이터, 분산교육 등 고성능 작업의 워크로드 스케줄링에 적합합니다. 다양한 ML 프레임워크와의 통합을 지원합니다.
  • 주요 기능: 적응형 스케줄링, 사용자 정의 플러그인, 다양한 워크로드 지원(ML, HPC, 유전체 분석 등) 등 Ray의 분산 처리와 유사한 대규모 워크로드 관리 환경을 제공합니다.
  • 참고 링크

4. KubeDL (https://kubedl.io/ )

  • 설명: 다수의 분산 ML 워크로드(TensorFlow, PyTorch, MXNet 등) 배포와 라이프사이클 관리를 간편하게 만들어주는 오픈소스 도구입니다.
  • 주요 기능: 다양한 ML 워크로드를 쿠버네티스 상에서 통합 관리하며, 배치 및 실험 환경에 적합합니다