Ray 는 대규모 분산 컴퓨팅 및 AI/ML 워크로드 실행에 특화된 오픈소스 플랫폼인데, CNCF 프로젝트 입장에서 보면, Ray와 비슷하게 ‘분산 컴퓨팅’ 또는 ‘머신러닝 워크로드 오케스트레이션’을 지원하는 대표적 프로젝트를 소개해봅니다.
간단 비교 표
프로젝트 | 주여 기능/분야 | 분산 컴퓨팅 | ML/AI 오케스트레이션 | 쿠버네티스 네이티브 |
---|---|---|---|---|
Ray | 분산 작업/AI/ML | ● | ● | KubeRay 통해 지원 |
Kubeflow | ML 파이프라인/분산학습 | ● | ● | ● |
KubeRay | Ray 클러스터 관리 | ● | ● | ● |
Volcano | 배치/고성능 컴퓨팅 | ● | ○ | ● |
KubeDL | ML 워크로드 관리 | ○ | ● | ● |
●=강점, ○=부분 지원
1. Kubeflow
- 설명: 머신러닝(ML) 워크플로우를 쿠버네티스 환경에서 손쉽게 배포하고 운영할 수 있도록 해주는 MLOps 플랫폼입니다. TensorFlow, PyTorch 등 다양한 프레임워크 기반의 분산 교육, 실험, 서빙 워크로드를 지원합니다.
- 주요 기능: 워크플로우 파이프라인, 분산 학습, 오토ML, 모델 서빙, 하이퍼파라미터 튜닝 등 Ray와 유사한 실질적 분산 처리 및 ML 오케스트레이션 환경을 제공합니다.
- 출처 :
2. KubeRay
- 설명: CNCF 산하에서 Ray를 쿠버네티스 환경에서 손쉽게 배포·관리하도록 해주는 특화 오퍼레이터입니다. Ray 클러스터의 생성·관리와 함께 LLM, 분산 데이터 처리, AI/ML 워크로드를 컨테이너 환경에서 구동할 수 있게 최적화되어 있습니다.
- 비고: KubeRay는 Ray 자체를 쿠버네티스 친화적으로 사용할 수 있게 하는 공식 프로젝트로, 최근 CNCF 내 AI/ML 인프라 구성의 주요 요소로 주목받고 있습니다.
- 출처
3. Volcano
- 설명: 클라우드 네이티브 고성능 컴퓨팅(HPC) 및 배치 작업 관리에 초점을 둔 배치 스케줄러로, AI, 빅데이터, 분산교육 등 고성능 작업의 워크로드 스케줄링에 적합합니다. 다양한 ML 프레임워크와의 통합을 지원합니다.
- 주요 기능: 적응형 스케줄링, 사용자 정의 플러그인, 다양한 워크로드 지원(ML, HPC, 유전체 분석 등) 등 Ray의 분산 처리와 유사한 대규모 워크로드 관리 환경을 제공합니다.
- 참고 링크
4. KubeDL (https://kubedl.io/ )
- 설명: 다수의 분산 ML 워크로드(TensorFlow, PyTorch, MXNet 등) 배포와 라이프사이클 관리를 간편하게 만들어주는 오픈소스 도구입니다.
- 주요 기능: 다양한 ML 워크로드를 쿠버네티스 상에서 통합 관리하며, 배치 및 실험 환경에 적합합니다