Berkeley RISELab에서 최초 개발, 학계 및 업계에서 적극 채택하고 있는 다양한 Ray Project 중에, IBM이 오픈소스로 공개하고자 제안한 llm-perf
는 CNCF의 Cloud Native AI 워킹 그룹, CNCF 커뮤니티에서 활발하게 논의가 되고 있습니다.
-
클라우드 기반 자동 실행: AWS/GCP에서 Terraform 기반 인프라 구성 및 테스트 자동화
-
다양한 서빙 백엔드 지원: vLLM, TGI, HuggingFace, OpenAI API 등
-
정량적 벤치마크 제공: 지연 시간, 처리량, 비용, 정확도까지 통합 평가
-
LLM 서빙 튜닝 가이드 포함: 컨커런시, 배치 크기, 토크나이저 속도 등 세밀 조정
LLM 성능 비교, 서빙 최적화, 비용 효율 분석까지 한 번에 해결하고 싶다면, 지금 바로 llmperf
를 활용해보세요!