약 1,000억개의 뉴런과 상당한 에너지 소비를 하고, 아직도 완벽하게 밝혀지지 않은 세포 유전자를 가진 인간의 뇌의 관점에서, LLM이 현재 어느정도 따라오고 있는지를 보여주는 논문입니다.
아래는 논문 **“LLMs Get Lost In Multi-Turn Conversation” (2025년 5월, Microsoft & Salesforce)**의 핵심 요약입니다:
핵심 결론
- 모든 주요 LLM들(GPT-4.1, Gemini 2.5, Claude 3.7 등)은 멀티턴 대화에서 성능이 급격히 떨어진다
→ 평균 성능 감소 -39%, 신뢰도(unreliability)는 +112% 증가 - 이유:
- 너무 빨리 결론을 내리고
- 틀린 가정에 의존하며
- 중간에 수정하지 못하고
- 긴 응답을 하면서 스스로 혼란에 빠진다.
실험 개요
- 실험 구조: 동일한 6개 생성 태스크(Code, Math, SQL, 요약 등)에 대해
- 단일턴 (Fully-specified)
- 멀티턴 (Sharded)
- 요약턴/스노우볼 (Recap/Snowball)
으로 나누어 15개 모델 × 60만 건 이상의 시뮬레이션 수행
- Sharded: 기존 단일 명령을 여러 조각(shard)으로 나누어 한 턴에 하나씩 주는 방식 → 사용자 불완전 지시 상황을 흉내냄.
성능 저하 분석
성능 지표 | 정의 | 멀티턴에서의 변화 |
---|---|---|
Aptitude (A) | 최상위 10% 수행 능력 | -15% 감소 |
Unreliability (U) | 상/하위 10% 점수 차이 (변동성 척도) | +112% 증가 |
- 멀티턴에서는 모델 성능 편차가 극단적으로 커짐.
- GPT-4.1, Claude 3.7, Gemini 2.5와 같은 고성능 모델도 예외 없음.
근본 원인 4가지
- 정보가 부족한 상태에서 너무 빨리 결론을 내려 틀린 답을 시도
- 이전 응답에 과도하게 의존하여 “부풀려진” 응답을 생성
- 대화 중간 정보 반영을 실패하여 맥락 손실
- 과하게 긴 응답으로 사용자 의도보다 자신의 추론에 집중
대안 실험 (Agent-like 접근)
- Recap: 마지막 턴에 지금까지 받은 모든 정보 요약
- Snowball: 각 턴에 이전 턴까지의 정보를 반복하며 누적 제공
→ 이 방법들은 성능을 15~20% 정도 개선하지만, 단일턴 수준에는 도달하지 못함
사용자 & 개발자에게 주는 교훈
사용자:
- 가능하면 정보를 한 번에 제공 (CONCAT가 SHARDED보다 월등)
- 대화 도중보다 새로 대화를 시작하는 것이 더 나은 결과 가능성
시스템/모델 개발자:
- **"지능 향상"뿐 아니라 “신뢰성 향상”**에 집중 필요
- 온도(temperature)를 낮추는 방식도 멀티턴에는 효과 미미
실험 오픈소스
- 데이터셋: HuggingFace
- 논문: arXiv:2505.06120
- 코드: GitHub
LLM error - multi-turn conversation.pdf (1.8 MB)