GPU Slicing, Workload Scheduling 에 대한 Monitoring 에 좋은 방법은 뭐가 있을까요? 그리고 CUDA 종속성 완화 방법?

hhchang0808 · June 20, 2025, 3:23am

GPU Slicing, 우선순위 기반의 Workload Scheduling 등에 대한 사용률 , Monitoring 을 위한 좋은 방법은 무엇일까요? 또한 CUDA 종속성을 완화하는 방법은 없을까요?

CloudBro_AI · June 20, 2025, 3:34am

[CloudBro AI Bot Response]
GPU Slicing과 우선순위 기반 Workload Scheduling, 그리고 모니터링을 효과적으로 수행하는 방법과 CUDA 종속성 완화 방안에 대해 단계별로 분석하고 실무 가이드를 제시합니다.

1. GPU Slicing 및 우선순위 기반 Workload Scheduling 개요

GPU Slicing: 하나의 물리적 GPU를 여러 개의 가상 GPU로 분할하여 여러 워크로드가 동시에 GPU를 사용할 수 있도록 하는 기술입니다. 대표적으로 NVIDIA의 Multi-Instance GPU (MIG)가 있습니다.
우선순위 기반 Workload Scheduling: GPU 자원을 여러 워크로드에 할당할 때 우선순위를 고려하여 자원 분배와 실행 순서를 결정하는 방식입니다. 이를 통해 중요한 작업에 더 많은 자원과 빠른 실행을 보장할 수 있습니다.

2. GPU Slicing 및 Workload Scheduling 사용률 및 모니터링 방법

2.1 GPU Slicing 사용률 모니터링

NVIDIA MIG (Multi-Instance GPU) 모니터링
- nvidia-smi 명령어에서 MIG 인스턴스별 사용률을 확인 가능
- 예: nvidia-smi mig -cgi 로 인스턴스 생성 및 nvidia-smi 로 각 인스턴스별 GPU 사용량 확인
- Grafana + Prometheus 연동: NVIDIA DCGM Exporter를 활용해 MIG 인스턴스별 메트릭 수집 및 시각화 가능
  NVIDIA DCGM Exporter GitHub
  예제 Grafana 대시보드
쿠버네티스 환경에서 GPU Slicing 모니터링
- NVIDIA Device Plugin이 MIG 지원
- Metrics Server 또는 Prometheus Operator와 연동해 Pod별 GPU 사용량 수집
- KubeGPU, KubeVirt 같은 오픈소스 프로젝트 활용 가능

2.2 우선순위 기반 Workload Scheduling 모니터링

스케줄러 로그 및 메트릭 분석
- Kubernetes의 경우, PriorityClass와 Pod 스케줄링 이벤트를 모니터링
- kubectl describe pod <pod-name> 로 스케줄링 상태 확인
- Prometheus에 kube-scheduler 메트릭 수집 후 Grafana로 시각화
GPU 자원 할당 현황 모니터링
- NVIDIA DCGM Exporter + Prometheus로 GPU 할당 및 사용률 모니터링
- Slurm, HTCondor 등 HPC 스케줄러 사용 시 스케줄러 자체 메트릭 활용
워크로드 우선순위 및 SLA 준수 모니터링
- Custom Metrics API 또는 External Metrics API 사용해 SLA 기반 모니터링 가능
- Alertmanager로 우선순위 높은 워크로드 지연 시 알림 설정

3. CUDA 종속성 완화 방안

CUDA에 종속적인 코드를 완화하려면 다음 전략을 고려할 수 있습니다.

3.1 하드웨어 추상화 계층 사용

ROCm (AMD) 및 OneAPI (Intel) 등 대체 GPU 컴퓨팅 프레임워크 지원
- HIP (Heterogeneous-computing Interface for Portability): CUDA 코드를 HIP으로 변환해 AMD GPU에서도 실행 가능
  HIP 포팅 가이드
- OneAPI DPC++: 다양한 하드웨어 지원
추상화 라이브러리 활용
- Kokkos, RAJA: 병렬 프로그래밍 추상화 라이브러리로 CUDA 외 다양한 백엔드 지원

3.2 컨테이너화 및 런타임 추상화

NVIDIA Container Toolkit
- CUDA 런타임을 컨테이너에 포함시키고 호스트 GPU 드라이버와 호환되게 관리
- CUDA 버전 차이 문제 완화 가능
GPU Operator 및 Device Plugin 활용
- 쿠버네티스 환경에서 GPU 리소스 추상화 및 관리

3.3 API 레벨 다중 백엔드 지원 설계

코드 설계 시 CUDA 전용 API 호출 대신 표준화된 API (예: OpenCL, Vulkan Compute, SYCL) 사용 고려
런타임 시 하드웨어에 맞는 백엔드 선택 가능하도록 추상화 계층 설계

4. 실무 적용 예시

4.1 MIG 인스턴스 생성 및 모니터링

# MIG 인스턴스 프로파일 확인
nvidia-smi mig -L

# MIG 인스턴스 생성 (예: 1g.5gb 프로파일)
sudo nvidia-smi mig -cgi 19,20 -C

# 인스턴스별 GPU 사용량 확인
nvidia-smi

4.2 Prometheus + DCGM Exporter 설정

# Prometheus scrape config 예시
scrape_configs:
  - job_name: 'dcgm-exporter'
    static_configs:
      - targets: ['<gpu-node-ip>:9400']

4.3 CUDA 코드 HIP으로 포팅

# HIP 포팅 툴 사용 예
hipify-perl my_cuda_code.cu > my_hip_code.cpp

5. 참고 문서 및 링크

NVIDIA MIG 공식 문서: MIG User Guide — NVIDIA Multi-Instance GPU User Guide
NVIDIA DCGM Exporter GitHub: GitHub - NVIDIA/dcgm-exporter: NVIDIA GPU metrics exporter for Prometheus leveraging DCGM
Kubernetes GPU 지원: Schedule GPUs | Kubernetes
ROCm HIP 포팅 가이드: https://rocmdocs.amd.com/en/latest/Programming_Guides/HIP-Porting-Guide.html
Kokkos: GitHub - kokkos/kokkos: Kokkos C++ Performance Portability Programming Ecosystem: The Programming Model - Parallel Execution and Memory Abstraction
NVIDIA Container Toolkit: GitHub - NVIDIA/nvidia-docker: Build and run Docker containers leveraging NVIDIA GPUs

요약하면, GPU Slicing과 우선순위 기반 스케줄링은 NVIDIA MIG와 Kubernetes Device Plugin, Prometheus + Grafana 모니터링 조합으로 효과적으로 관리할 수 있으며, CUDA 종속성 완화는 HIP, OneAPI, 추상화 라이브러리, 컨테이너화 전략을 활용하는 것이 현실적인 접근입니다.

Topic		Replies	Views
GPU 스케줄링을 위한 추천 설정/도구 문의합니다 Ask a Question ai , cloudnative , gpu	4	121	November 30, 2025
GPU 서버 기반 클러스터에서 쿠버네티스 활용 사례 - 손빈(@Beengineer) Bro님 행사 사전 질문 Ask a Question kubernetes , use-case , gpu , cluster , best-practice , questions , ai-training , rag	1	54	November 11, 2025
쿠버네티스에서 분산 학습을 위한 AI 워크로드 스케줄링 Ask a Question kubernetes , mlops , ai , ask-a-question	2	62	November 30, 2025
Slurm 관련 질문 Ask a Question mlops	3	46	July 15, 2025
Rag-llm 서빙 관련 Ask a Question mlops	1	27	June 30, 2025