최근 LLM 논문에 대해서 .... 인간의 뇌 vs. AI

jerry · May 17, 2025, 10:34pm

약 1,000억개의 뉴런과 상당한 에너지 소비를 하고, 아직도 완벽하게 밝혀지지 않은 세포 유전자를 가진 인간의 뇌의 관점에서, LLM이 현재 어느정도 따라오고 있는지를 보여주는 논문입니다.

아래는 논문 **“LLMs Get Lost In Multi-Turn Conversation” (2025년 5월, Microsoft & Salesforce)**의 핵심 요약입니다:

핵심 결론

모든 주요 LLM들(GPT-4.1, Gemini 2.5, Claude 3.7 등)은 멀티턴 대화에서 성능이 급격히 떨어진다
→ 평균 성능 감소 -39%, 신뢰도(unreliability)는 +112% 증가
이유:
1. 너무 빨리 결론을 내리고
2. 틀린 가정에 의존하며
3. 중간에 수정하지 못하고
4. 긴 응답을 하면서 스스로 혼란에 빠진다.

실험 개요

실험 구조: 동일한 6개 생성 태스크(Code, Math, SQL, 요약 등)에 대해
- 단일턴 (Fully-specified)
- 멀티턴 (Sharded)
- 요약턴/스노우볼 (Recap/Snowball)
  으로 나누어 15개 모델 × 60만 건 이상의 시뮬레이션 수행
Sharded: 기존 단일 명령을 여러 조각(shard)으로 나누어 한 턴에 하나씩 주는 방식 → 사용자 불완전 지시 상황을 흉내냄.

성능 저하 분석

성능 지표	정의	멀티턴에서의 변화
Aptitude (A)	최상위 10% 수행 능력	-15% 감소
Unreliability (U)	상/하위 10% 점수 차이 (변동성 척도)	+112% 증가

멀티턴에서는 모델 성능 편차가 극단적으로 커짐.
GPT-4.1, Claude 3.7, Gemini 2.5와 같은 고성능 모델도 예외 없음.

근본 원인 4가지

정보가 부족한 상태에서 너무 빨리 결론을 내려 틀린 답을 시도
이전 응답에 과도하게 의존하여 “부풀려진” 응답을 생성
대화 중간 정보 반영을 실패하여 맥락 손실
과하게 긴 응답으로 사용자 의도보다 자신의 추론에 집중

대안 실험 (Agent-like 접근)

Recap: 마지막 턴에 지금까지 받은 모든 정보 요약
Snowball: 각 턴에 이전 턴까지의 정보를 반복하며 누적 제공

→ 이 방법들은 성능을 15~20% 정도 개선하지만, 단일턴 수준에는 도달하지 못함

사용자 & 개발자에게 주는 교훈

사용자:

가능하면 정보를 한 번에 제공 (CONCAT가 SHARDED보다 월등)
대화 도중보다 새로 대화를 시작하는 것이 더 나은 결과 가능성

시스템/모델 개발자:

**"지능 향상"뿐 아니라 “신뢰성 향상”**에 집중 필요
온도(temperature)를 낮추는 방식도 멀티턴에는 효과 미미

실험 오픈소스

데이터셋: HuggingFace
논문: arXiv:2505.06120
코드: GitHub
LLM error - multi-turn conversation.pdf (1.8 MB)

yoon_hs · May 18, 2025, 2:05am

흥미로운 논문이네요. 확인해보겠습니다.
감사합니다!!

jerry · May 19, 2025, 4:20am

이번 자료는 현재 시점에서의 LLM 기반 AI의 성능 수준을 평가할 수 있는 하나의 중요한 지표로서 나름의 의미를 지니고 있다고 생각합니다. 물론 단순 질문 또는 한두번의 질문과 답변을 주고 받으면서 얻는 정보에 대해서는 비교적 최신의 내용을 신속하게 제공할 수 있지만, 결국 질문의 Prompting이 충분한 경험을 가지고 구체적이고 명확하게 하는 것이 중요하며, Gen AI의 답변은 참고 답변 이상으로 받아들이면 안됩니다. 즉, 인간의 경험과 판단이 Gen AI가 나만의 뛰어난 Assistant 로 만들어야한다는 것입니다.

많은 사람들이 Gen AI가 모든 것을 대신해줄 수 있을 것이라 기대하지만, 실제로 Gen AI는 분명 혁신적인 기술임에도 불구하고, 당분간 사람의 책임과 판단이 중심이 되어야 한다고 봅니다. 진정한 AGI로 가기까지는 아직도 넘어야 할 수많은 기술적·철학적 난제가 존재하기 때문입니다.

Topic		Replies	Views
AI와의 대화, 글보다 말이 통합니다 Bro's Lounge ai , question	0	5	June 14, 2025
LLM/ AI Agent에 대한 기초 강의 설명을 잘 해주신 영상 - 스텐포드 대학 Bro's Lounge llm , agent	0	8	April 27, 2025
[📂 세미나 현장에서만 공유한 CloudBro AI의 발표 자료, 지금 공개합니다!] Bro's Lounge cloudbro , seminar	0	37	June 11, 2025
내가 만든 AI가 어떻게 작동하는지 모른다?!?!?! Bro's Lounge ai , explainable-ai	0	26	May 5, 2025
AI · 오픈소스 · 클라우드 기술과 인간다움의 융합 - CloudBro Bro's Lounge cloudbro	1	212	June 6, 2025