AI가 단순 업무를 대체하는 시대일수록, 역설적으로 **모델을 더 똑똑하고 안전하게 만드는 ‘인간 전문가 검수(RLHF)’**의 가치가 커지고 있습니다. 이 글에서는 전문가 라벨링이 왜 성장하는지, 그리고 박사급 전문성뿐 아니라 현업의 관계·직관 같은 암묵지를 어떻게 가치화할 수 있는지를 정리해보겠습니다.
AI가 일자리를 줄이는데, 왜 “전문가 검수”는 늘어날까?
AI가 자동화하는 것은 주로 반복 가능하고 규칙이 명확한 작업입니다. 그런데 모델이 고도화될수록 남는 문제는 반대로 더 어렵습니다.
- 정답이 하나로 떨어지지 않는 문제(의학적 판단, 정책/규제 준수, 보안 리스크 등)
- “대답” 자체보다 **어떤 대답이 더 바람직한지(선호/안전/윤리)**를 고르는 문제
- 엣지 케이스(예외 상황)에서의 실패 비용이 큰 문제
이 지점에서 RLHF(Reinforcement Learning from Human Feedback) 같은 접근이 중요해집니다. 모델을 더 학습시키려면 결국 사람이 보고 평가하고, 수정하고, 기준을 세우는 과정이 필요합니다. 즉 “라벨링”이 단순 태깅이 아니라, 사람의 판단을 학습 데이터로 만드는 일로 업그레이드된 것입니다.
사례: Handshake가 “취업 플랫폼 → AI 훈련 데이터”로 전환한 이유
요약 자료에서 인상 깊었던 포인트는 Handshake의 전환입니다. 기존에는 취업 플랫폼이었지만, AI 훈련 데이터 사업으로 방향을 틀며 매출이 급성장했고, 그 과정에서 박사급 전문가 집단의 지식이 핵심 자산으로 언급됩니다.
제가 이 사례를 “라벨링 시장의 성장”보다 더 크게 보는 이유는, 라벨링의 본질이 다음으로 이동하고 있다는 신호로 읽히기 때문입니다.
- 저가 인력 중심의 대량 라벨링 → 고급 인력 중심의 고품질 검수/피드백
- 정답 라벨 제공 → 평가기준 설계, 위험도 판단, 정책(가이드라인) 수립
박사급 지식만이 답일까? 현업의 ‘경험·관계·직관’도 자산이 됩니다
대화에서 제가 특히 공감한 부분은 “기술보다 중요한 것은 사회적 관계 및 직관”이라는 관점입니다. 문제는 이것들이 보통 문서화가 어렵고, 측정도 어렵고, 재현도 어렵다는 점입니다. 그래서 가치가 있는데도 시장에서 잘 가격이 붙지 않습니다.
현업의 암묵지를 가치화하려면 핵심은 하나입니다.
경험을 “이야기”로만 두지 말고, 재현 가능하고 검증 가능한 형태로 바꾸는 것입니다.
1) 관계/직관을 “번역(translation) 능력”으로 정의하기
현업에서 관계와 직관은 종종 기술이 아니라 조율과 번역으로 나타납니다.
- 개발 ↔ 보안/감사 ↔ 법무 ↔ 영업 ↔ 고객의 언어가 다를 때
- 각자의 목표(KPI)와 리스크가 다를 때
- 같은 사건을 다르게 해석할 때
이때 성과를 만드는 사람은 “다 아는 사람”이 아니라, 서로 다른 도메인의 요구를 기술 설계/운영 정책으로 바꿔주는 사람입니다. 이 역량은 AI가 강해질수록(정보량이 늘수록) 오히려 더 중요해질 가능성이 큽니다.
2) 암묵지를 RLHF/검수 작업으로 옮기는 방법: “평가기준”으로 만들기
관계와 직관을 바로 라벨로 만들기는 어렵지만, **평가척도(루브릭)**로는 만들 수 있습니다. 예를 들어 LLM의 답변을 평가할 때 다음 같은 기준을 세우는 것입니다.
- 규제/정책 위반 가능성이 있는가?
- 고객 커뮤니케이션 관점에서 오해를 부를 표현이 있는가?
- 운영 리스크(장애, 비용 폭증, 보안 사고)를 키우는 선택을 권하는가?
- 조직 내 합의 구조(누가 승인해야 하는가)를 무시하고 있는가?
즉, “정답” 대신 ‘조직에서 통과 가능한 답’의 조건을 라벨링합니다. 이게 바로 현업 경험이 데이터가 되는 순간입니다.
3) “한 분야의 전문성 + 제너럴리스트”가 왜 유리한가 (T자형의 현실적 의미)
대화에서 나온 결론인 “한 분야의 전문성 + 제너럴리스트”는 요즘 더 실용적입니다. 다만 제너럴리스트를 “많이 아는 사람”으로 정의하면 금방 평준화됩니다. 대신 저는 이렇게 정의하는 편이 낫다고 봅니다.
- 한 분야의 깊이(예: 클라우드 아키텍처/거버넌스)로 신뢰를 확보하고
- 다른 분야들과의 접점에서 의사결정을 연결하고, 갈등을 줄이는 번역자로 가치를 만든다
클라우드 전문가가 AI 시대에 “좋은 조력자”로 남는 포지션
사용자 의견처럼 클라우드는 “모든 산업의 인프라”이고, AI는 그 위에서 가장 빠르게 비용/리스크를 폭발시키는 워크로드 중 하나입니다. 그래서 클라우드 전문성이 살아남는 방식은 단순 구축이 아니라 트레이드오프를 설계로 풀어내는 판단에 있다고 봅니다.
- 비용: GPU/스토리지/네트워크로 인한 비용 폭증 제어
- 보안/규제: 데이터 거버넌스, 접근통제, 감사 대응
- 신뢰성: 배포 안정화, 관측가능성, 장애 대응 체계(SRE)
- 운영: MLOps/LLMOps 파이프라인, 평가/롤백, 프롬프트·모델 변경 관리
이 영역은 “기술”과 “조율/합의”가 동시에 필요한데, 바로 여기서 관계·직관이 실전 가치가 됩니다.
열린 질문에 대한 제 답: 인간 개입의 기준은 “실패 비용”과 “합의 필요성”입니다
원본 요약의 질문은 이거였습니다.
“전문가 검수 수요가 구조적으로 지속되려면, AI가 대체하기 어려운 ‘인간 개입’의 기준을 어디에 설정해야 할까요?”
저는 기준을 두 축으로 두는 게 현실적이라고 생각합니다.
- 실패 비용이 큰가? (보안 사고, 규제 위반, 금전 손실, 신뢰 훼손, 인명 등)
- 합의가 필요한가? (조직 내 책임소재/승인 구조/이해관계 조율)
이 두 조건 중 하나라도 강하면, 모델이 아무리 좋아져도 “마지막 확인”은 자동화가 더딜 가능성이 큽니다. 결국 전문가 라벨링의 지속성은 “AI가 못해서”가 아니라, 사회적·제도적 책임 구조 때문에 유지될 수 있습니다.
마무리
AI가 발전할수록 라벨링은 더 고급화되고, “정답 태깅”보다 판단 기준 설계와 위험 관리가 중요해집니다. 박사급 지식뿐 아니라, 현업의 관계·직관도 평가기준(루브릭)과 번역 능력으로 구조화하는 순간 강력한 자산이 될 수 있습니다.