Solar-Open-100B 모델 공개 검증 브리핑

Solar-Open-100B 모델 공개 검증 브리핑

Executive Summary

본 문서는 업스테이지(Upstage)가 공개한 Solar-Open-100B 모델이 'From Scratch(처음부터 학습)'로 개발되었음을 검증하는 세션의 핵심 내용을 요약 및 정리한다. 본 모델은 정부의 ‘독자 파운데이션 모델’ 구축 과제의 일환으로 개발되었으며, 최근 커뮤니티에서 제기된 ‘파생 모델’ 의혹에 대해 상세한 증거와 데이터를 기반으로 반박하는 것을 주요 골자로 한다.

업스테이지는 'From Scratch’의 핵심 기준을 모델의 가중치(weight)가 외부의 사전 학습된 값을 가져오지 않고, 무작위로 초기화(random initialization)된 상태에서 학습되었는지 여부로 정의한다. Solar-Open-100B는 이 기준을 명확히 충족하며, 이를 입증하기 위해 학습 시작 시점(9월 초)부터의 전체 학습 과정이 기록된 체크포인트(Checkpoints)와 W&B(WandB) 로그를 공개했다. 이 자료들은 모델의 손실(Loss) 값이 높은 초기 상태에서 점차 수렴하고, MMLU와 같은 성능 지표가 ‘바보’ 수준에서부터 꾸준히 상승하는 과정을 명확히 보여주며, 이는 전형적인 ‘From Scratch’ 학습의 증거이다.

의혹의 핵심 근거로 제시된 특정 모델(GLM)과의 LayerNorm 파라미터 유사성 주장은, 부적절한 측정 지표(코사인 유사도)와 결정적 분석 오류에 기인한 것으로 밝혀졌다. 업스테이지는 코사인 유사도가 벡터의 방향성만 측정하여 해당 파라미터의 특성을 제대로 반영하지 못함을 지적하고, 피어슨 상관관계(Pearson Correlation)와 같은 더 적절한 지표로는 유사성이 현저히 낮음(-0.163)을 입증했다. 또한, 의혹 제기자가 모델 내부 레이어 간 비교를 부적절하게 수행하여 잘못된 결론을 도출했음을 추가 실험을 통해 명확히 했다.

모델 아키텍처의 유사성 지적에 대해서는, 허깅페이스(Hugging Face)를 중심으로 한 현재 LLM 생태계의 호환성을 위한 표준 구조(Transformer, MoE)를 따른 결과임을 설명했다. 동시에 GPT-NeoX OSS 아키텍처를 기반으로 안정성을 위해 공유 레이어(shared layer)를 추가하고, 불필요한 댄스 레이어(dense layer)를 제거하는 등 독자적인 수정을 가해 상당한 차이가 있는 구조임을 강조했다. 추론 코드 및 라이선스 변경 논란은, 프로젝트 마감 기한(12월 31일)에 맞춰 모델 성능 최적화에 집중하느라 발생한 절차적 미비점을 바로잡는 과정이었음을 해명했다.

결론적으로, 업스테이지는 제시된 모든 증거를 통해 Solar-Open-100B가 파생 모델이 아닌, 독자적으로 처음부터 학습된 ‘From Scratch’ 모델임을 확신하며, 커뮤니티의 건강한 토론은 환영하나 확인되지 않은 정보의 확정적 유포에 대해서는 단호히 대응할 것임을 밝혔다.

--------------------------------------------------------------------------------

1. ‘From Scratch’ 모델의 정의와 개발 배경

'From Scratch’의 핵심 기준: 가중치 초기화

업스테이지는 ‘From Scratch’ 모델을 판정하는 가장 중요한 기준으로 가중치(Weight)의 초기화 방식을 제시한다.

  • From Scratch 모델: 모델 구조를 정의한 뒤, 내부 가중치 값을 무작위 숫자(random initialization)로 설정하여 처음부터 학습을 시작한 모델.

  • 파생 모델 (From Scratch가 아닌 모델): 다른 주체가 이미 학습시켜 놓은 모델의 가중치를 가져와(import) 학습의 초기값으로 사용하여 성능 향상을 꾀하는 모델.

결론적으로, 가중치의 무작위 초기화 여부가 'From Scratch’를 가르는 결정적인 요소이며, 이 결정은 학습의 가장 첫 단계에서 이루어진다.

국가 과제와 개발 동기

Solar-Open-100B 모델은 정부의 ‘독자 파운데이션 모델’ 구축 프로젝트의 일환으로 개발되었다. 업스테이지는 ‘From Scratch’ 모델 개발에 수반되는 막대한 비용 문제로 인해 자체적으로 시도하기 어려웠으나, 본 프로젝트를 통해 국민 세금으로 GPU를 지원받아 독자 모델을 만들 좋은 기회로 삼고 참여하게 되었다. 프로젝트의 주요 요구사항 중 하나는 12월 31일까지 모델 가중치를 제출하는 것이었으며, 이 마감 기한은 이후 발생한 일부 논란의 배경이 되었다.

2. ‘From Scratch’ 학습 과정 증거

업스테이지는 모델이 외부에서 가져온 것이 아니라 처음부터 직접 개발했음을 증명하기 위해, 아이의 성장 과정을 기록하는 '육아 일기’에 비유하며 두 가지 핵심 증거를 제시했다.

학습 체크포인트와 W&B 로그 공개

  • 체크포인트 (Checkpoints): 모델 학습 과정에서 특정 스텝(e.g., 500스텝, 1000스텝)마다 저장되는 가중치 파일이다. 업스테이지는 9월 초부터 11월 말까지의 학습 기간 동안 스텝별로 저장된 체크포인트 목록과 생성 일시를 공개하며, 모델이 점진적으로 개발되었음을 증명했다.

  • W&B (WandB) 로그: 학습 과정 중 발생하는 모든 성능 지표(손실, 정확도 등)를 시각화하고 추적하는 도구이다. 업스테이지는 W&B에 기록된 로그를 통해 학습이 정상적으로 진행되었음을 보여주었다. GPU 사용 이력(AWS 및 SKT GPU) 또한 로그에 남아있어 실제 학습이 수행되었음을 뒷받침한다.

주요 성능 지표 변화 추이

‘From Scratch’ 학습의 전형적인 패턴을 보여주는 주요 지표 변화는 다음과 같다.

  • 손실(Loss) 그래프: 학습 초기에는 모델이 아무것도 모르는 상태이므로 손실 값이 매우 높게 나타난다. 이후 학습이 진행됨에 따라(약 10K 스텝) 손실 값이 급격히 감소하며 안정적으로 수렴하는 모습을 보인다. 이는 무작위 상태에서 점차 지식을 습득해가는 과정을 명확히 보여준다.

  • MMLU 점수: MMLU는 모델의 다방면 지식 수준을 측정하는 벤치마크이다. 학습 초기 MMLU 점수는 0.1에 가까운 ‘바보’ 수준이었으나, 학습이 진행되면서(약 4K 스텝 이후) 점수가 꾸준히 우상향하는 그래프를 보여준다. 이는 모델이 데이터를 통해 점진적으로 성능을 향상시켰다는 직접적인 증거이다.

3. 제기된 의혹과 핵심 반박

핵심 의혹: LayerNorm 파라미터 유사성

가장 결정적인 의혹으로, Solar-Open-100B의 특정 LayerNorm 파라미터가 GLM 모델과 99% 이상의 코사인 유사도를 보이며, 이는 가중치를 가져오지 않고서는 설명하기 어렵다는 주장이 제기되었다.

  • 의혹 내용: Solar 모델과 GLM 모델 간 LayerNorm 파라미터의 코사인 유사도가 매우 높게 측정되었으며, 이는 사실상 '빼박 증거’로 제시되었다.

  • 반박 1: 잘못된 측정 지표 (코사인 유사도)

    • LayerNorm 파라미터(감마 값)는 레이어의 출력을 정규화(normalization)하는 역할을 하며, 대부분 양수 값을 가지고 학습 시 1.0으로 초기화된다.

    • 코사인 유사도는 벡터의 크기를 무시하고 방향성만을 측정하는 지표이다. 대부분 양수 값을 갖는 LayerNorm 파라미터의 특성상, 값 자체가 달라도 벡터 방향은 유사하게 나타나 코사인 유사도가 높게 측정되는 착시를 일으킨다.

  • 반박 2: 분석 방법의 결정적 오류

    • 의혹 제기자는 Solar 모델 내부의 레이어 간 유사도는 낮다고 주장하며(Layer 0 vs. 나머지), 이것이 외부 모델(GLM)과의 높은 유사도와 비교될 때 의심스럽다고 지적했다.

    • 이는 결정적인 분석 오류이다. Layer 0은 입력단에 가장 가까워 학습 중 변화가 가장 심한 레이어이다. 당연히 변화가 적은 후반부 레이어(10, 20, 30 등)와는 방향성이 다르게 나타난다.

    • 업스테이지가 모델 내부의 후반부 레이어들(e.g., 10 vs. 20, 20 vs. 30)을 비교하자, GLM과 비교했을 때보다 훨씬 더 높은 유사도가 나타났다. 이는 의혹 제기자의 "내부에서는 다른데 외부와는 같다"는 전제 자체가 잘못되었음을 입증한다.

  • 반박 3: 올바른 지표와 실제 값 비교

    • 값의 상관관계를 더 잘 나타내는 피어슨 상관관계(Pearson Correlation) 지표로 측정 시, Solar와 GLM 간의 상관계수는 -0.163으로 매우 낮게 나타나 사실상 아무런 관련이 없음을 보여준다.

    • 실제 파라미터 숫자 값을 직접 비교했을 때, 두 모델의 값은 육안으로도 명백히 다른 것을 확인할 수 있다.

의혹 2: 모델 아키텍처 유사성

Solar 모델의 구조가 GLM과 유사하여 파생 모델이 아니냐는 의혹이 제기되었다.

  • 생태계 호환성을 위한 표준 구조: 현재 LLM 생태계는 Transformer 및 MoE(Mixture of Experts) 아키텍처가 사실상의 표준이다. 허깅페이스 라이브러리, VLLM과 같은 서빙 도구와의 호환성을 확보하기 위해 대부분의 모델이 이 표준 구조를 기반으로 약간의 변형을 가한다. 완전히 독창적인 구조는 생태계에서 고립될 수 있다.

  • 구체적인 아키텍처 차이점:

    • 기반 모델: Solar는 GPT-NeoX OSS 아키텍처를 기반으로 연구를 시작했다.

    • 구조 변경:

      1. 공유 레이어(Shared Layer) 추가: 짧은 학습 기간(3개월) 내 안정적인 학습을 위해 원본 GPT-NeoX OSS 구조에 없는 공유 레이어를 추가했다.

      2. 댄스 레이어(Dense Layer) 제거: GLM 모델은 앞단에 댄스 레이어가 있지만, 업스테이지는 실험 결과 성능에 큰 차이가 없어 효율성을 위해 이를 제거했다.

    • 결론적으로 레이어 수, 크기 등 세부적인 구조가 달라 "상당히 상이한 구조"라고 할 수 있다.

의혹 3: 추론 코드 및 라이선스 변경

모델 공개 후 추론 코드의 라이선스 파일에 GLM 저자 표기가 추가된 점이 의혹의 대상이 되었다.

  • 추론 코드의 역할: 추론 코드는 모델 가중치 자체가 아니며, 사용자가 모델을 쉽게 실행할 수 있도록 편의상 제공되는 부가 파일이다. 허깅페이스 라이브러리와 같은 공개된 오픈소스 코드를 가져와 모델 구조에 맞게 수정하여 제공하는 것이 일반적이다.

  • 라이선스 수정의 배경:

    • 마감 기한: 12월 31일 마감에 맞춰 모델 가중치의 성능을 1분 1초까지 최적화하는 데 모든 자원을 집중했다.

    • 절차적 미비: 이 과정에서 가중치 외 부가 파일들(리드미, 라이선스 등)을 꼼꼼히 챙기지 못하는 실수가 있었다.

    • 올바른 수정: 추론 코드에 사용된 오픈소스의 원 라이선스인 아파치(Apache) 2.0 규정은 원저자 표기를 의무화하고 있다. 라이선스를 아파치로 확정하면서 규정에 따라 허깅페이스 및 관련 원저자들의 이름을 명기한 것은 오류를 바로잡은 것이다.

4. 커뮤니티와의 소통 및 향후 계획

  • 건강한 토론 문화: 업스테이지는 커뮤니티의 건강한 토론과 검증을 환영한다. 하지만 이번 사례처럼 오류가 있는 내용을 기반으로 '결정적 증거’와 같은 표현을 사용하며 확정적으로 유포하는 것은 지양해야 한다고 강조했다.

  • 오류 인정 및 사과 요청: 의혹을 제기한 측이 분석 과정에서의 명백한 오류를 인지하고 공개적으로 바로잡아 줄 것을 강력히 요청했다.

  • 생태계 기여: 업스테이지는 향후에도 지속적으로 모델을 오픈하고, 기술 세션을 통해 노하우를 공유하며, 수정한 코드를 다시 허깅페이스와 같은 표준 라이브러리에 기여(pull request)함으로써 LLM 생태계 발전에 참여할 계획임을 밝혔다. 또한, 학교 및 비영리 단체를 대상으로는 API와 제품을 무료로 제공하는 프로그램을 운영 중이다.

1 Like