최근 LLM 논문에 대해서 .... 인간의 뇌 vs. AI

약 1,000억개의 뉴런과 상당한 에너지 소비를 하고, 아직도 완벽하게 밝혀지지 않은 세포 유전자를 가진 인간의 뇌의 관점에서, LLM이 현재 어느정도 따라오고 있는지를 보여주는 논문입니다.

아래는 논문 **“LLMs Get Lost In Multi-Turn Conversation” (2025년 5월, Microsoft & Salesforce)**의 핵심 요약입니다:


:pushpin: 핵심 결론

  • 모든 주요 LLM들(GPT-4.1, Gemini 2.5, Claude 3.7 등)은 멀티턴 대화에서 성능이 급격히 떨어진다
    → 평균 성능 감소 -39%, 신뢰도(unreliability)는 +112% 증가
  • 이유:
    1. 너무 빨리 결론을 내리고
    2. 틀린 가정에 의존하며
    3. 중간에 수정하지 못하고
    4. 긴 응답을 하면서 스스로 혼란에 빠진다.

:bullseye: 실험 개요

  • 실험 구조: 동일한 6개 생성 태스크(Code, Math, SQL, 요약 등)에 대해
    • 단일턴 (Fully-specified)
    • 멀티턴 (Sharded)
    • 요약턴/스노우볼 (Recap/Snowball)
      으로 나누어 15개 모델 × 60만 건 이상의 시뮬레이션 수행
  • Sharded: 기존 단일 명령을 여러 조각(shard)으로 나누어 한 턴에 하나씩 주는 방식 → 사용자 불완전 지시 상황을 흉내냄.

:chart_decreasing: 성능 저하 분석

성능 지표 정의 멀티턴에서의 변화
Aptitude (A) 최상위 10% 수행 능력 -15% 감소
Unreliability (U) 상/하위 10% 점수 차이 (변동성 척도) +112% 증가
  • 멀티턴에서는 모델 성능 편차가 극단적으로 커짐.
  • GPT-4.1, Claude 3.7, Gemini 2.5와 같은 고성능 모델도 예외 없음.

:brain: 근본 원인 4가지

  1. 정보가 부족한 상태에서 너무 빨리 결론을 내려 틀린 답을 시도
  2. 이전 응답에 과도하게 의존하여 “부풀려진” 응답을 생성
  3. 대화 중간 정보 반영을 실패하여 맥락 손실
  4. 과하게 긴 응답으로 사용자 의도보다 자신의 추론에 집중

:light_bulb: 대안 실험 (Agent-like 접근)

  • Recap: 마지막 턴에 지금까지 받은 모든 정보 요약
  • Snowball: 각 턴에 이전 턴까지의 정보를 반복하며 누적 제공

→ 이 방법들은 성능을 15~20% 정도 개선하지만, 단일턴 수준에는 도달하지 못함


:pushpin: 사용자 & 개발자에게 주는 교훈

사용자:

  • 가능하면 정보를 한 번에 제공 (CONCAT가 SHARDED보다 월등)
  • 대화 도중보다 새로 대화를 시작하는 것이 더 나은 결과 가능성

시스템/모델 개발자:

  • **"지능 향상"뿐 아니라 “신뢰성 향상”**에 집중 필요
  • 온도(temperature)를 낮추는 방식도 멀티턴에는 효과 미미

:test_tube: 실험 오픈소스

2 Likes

흥미로운 논문이네요. 확인해보겠습니다.
감사합니다!!

2 Likes

이번 자료는 현재 시점에서의 LLM 기반 AI의 성능 수준을 평가할 수 있는 하나의 중요한 지표로서 나름의 의미를 지니고 있다고 생각합니다. 물론 단순 질문 또는 한두번의 질문과 답변을 주고 받으면서 얻는 정보에 대해서는 비교적 최신의 내용을 신속하게 제공할 수 있지만, 결국 질문의 Prompting이 충분한 경험을 가지고 구체적이고 명확하게 하는 것이 중요하며, Gen AI의 답변은 참고 답변 이상으로 받아들이면 안됩니다. 즉, 인간의 경험과 판단이 Gen AI가 나만의 뛰어난 Assistant 로 만들어야한다는 것입니다.

많은 사람들이 Gen AI가 모든 것을 대신해줄 수 있을 것이라 기대하지만, 실제로 Gen AI는 분명 혁신적인 기술임에도 불구하고, 당분간 사람의 책임과 판단이 중심이 되어야 한다고 봅니다. 진정한 AGI로 가기까지는 아직도 넘어야 할 수많은 기술적·철학적 난제가 존재하기 때문입니다.

1 Like