아직도 GPU 시대의 논리로 AI 인프라를 결정하고 있나요?

Eleanor · April 22, 2026, 9:34am

지난 주, AI 인프라를 다루는 분들이라면 둘 중 하나는 보셨을 법한 보고서와 글을 소개드립니다. FinOps Foundation의 2026년 State of FinOps 보고서, 그리고 VMware Cloud Foundation의 Chris Wolf가 쓴 블로그 “The Real Constraint on Enterprise AI isn’t GPUs; It’s Power”. 두 문서를 따로 읽으면 각자의 뉴스지만 겹쳐놓고 읽으면 한 가지 공백이 드러납니다.

1. 두 신호가 같은 주에 도착하다

FinOps Foundation은 2026 보고서에서 6년 만에 처음으로 미션을 변경했습니다.

“Advancing the People who manage the Value of Cloud”

⇩

“Advancing the People who manage the Value of Technology”

단어 하나가 바뀌었지만, 보고서 본문은 이 변경이 어디서 나왔는지 숫자로 설명합니다. AI 비용 관리 도입률 31%(2024) → 63%(2025) → 98%(2026). SaaS 90%, 라이선싱 64%, 데이터센터 48%. FinOps 조직의 78%가 CTO/CIO 직속으로 보고. 업계가 cloud 바깥으로 측정 범위를 넓혔다는 선언이죠.

같은 주, Chris Wolf는 VMware Cloud Foundation 블로그에 글을 올렸습니다. 그의 문장 하나가 전체 글의 방향을 요약합니다.

“AI is an energy problem first and a compute problem second.”

대형 AI 사업자들이 독자 발전 용량을 확보하기 위해 전력회사와 직접 계약을 맺고 있다는 사실, 일부 엔터프라이즈는 전력회사가 증설 일정을 보장하지 못해 AI 확장을 연기하고 있다는 사실입니다. 그리고 이어지는 그의 마지막 문장은 아래와 같습니다.

“GPUs got the headlines. Power will determine who stays in the game.”

한쪽은 측정 범위가 넓어졌다고 말합니다. 다른 쪽은 AI의 진짜 병목이 그 측정 범위 안에 있지 않다고 말합니다.

2. $/token이 가격표 안에서만 작동하는 이유

업계가 AI 비용 단위로 쓰고 있는 $/token은 FinOps Foundation의 공식 FinOps for AI 페이지에도 "cost-per-token"으로 첫 자리에 올라와 있습니다. Unit Economics capability 문서에는 cost per GB stored, cost per vCPU와 동일한 층위의 리소스 효율 단위로 정의됩니다. 이미 배치된 모델 호출의 상품 가격입니다.

/token이 보여주지 않는 변수가 여러개 있습니다.

토큰을 생성하는 전기 단가(/kWh), 그 전기를 담는 데이터센터의 효율(PUE), 데이터센터 지역의 전력 단가와 탄소 강도, 그리고 그 지역에서 신규 전력을 인입받는 데 걸리는 시간

앞의 세 개는 이미 반영돼 있지만 단위가 숨기고 있습니다. 마지막 하나는 실제 결제 상에 올라오지도 않습니다. 전력을 받지 못하면 그 AI 워크로드는 애초에 배치되지 않기 때문입니다.

숫자 하나만 보면 간극의 크기가 가늠됩니다. 2020년 이전에 설계된 엔터프라이즈 데이터센터는 캐비닛당 5-10kW를 가정해 지어졌습니다. H100 한 랙은 40kW, GB200 NVL72는 120-140kW를 끌어갑니다. 이 차이가 어디선가 비용으로 나타나야 하는데 $/token은 그 자리가 아닙니다.

3. Nvidia는 이미 언어를 바꿨다

흥미로운 것은 이 공백이 전혀 새롭지 않다는 사실입니다. 같은 주에 Nvidia가 발행한 기술 블로그는 이렇게 시작합니다.

“Power is the ultimate constraint for modern AI: with grid capacity fixed, maximizing performance per watt is the defining metric for AI Infrastructure.”

Nvidia는 Blackwell Ultra 세대부터 tokens-per-megawatt, throughput-per-watt를 공식 마케팅 지표로 세웠습니다. GB200은 Hopper 대비 10배, GB300은 50배 throughput-per-megawatt를 낸다는 숫자가 모든 벤치마크 자료의 맨 위에 놓여 있습니다.

일부 실무 그룹도 움직이고 있습니다. Antarctica의 “One-Token Model” 백서는 tokens-per-joule과 carbon-per-prompt를 제안하고, Vantage 같은 FinOps 툴 벤더는 AI 워크로드에서 OpenTelemetry 확장으로 power와 token을 함께 수집하는 구현을 이미 내놓았습니다.

하지만 FinOps Foundation의 공식 Unit Economics 프레임워크 페이지를 열어보면 power나 energy 단위는 없습니다. cost per token, cost per inference, cost per agent action으로 확장되고 있을 뿐입니다. 칩 레이어는 단위를 바꿨고, 변두리 실무는 따라가기 시작했는데, 업계 공식 프레임워크는 cloud 시대의 리소스 단위 문법에 여전히 머물러 있습니다. 공백은 제가 발견한 것이 아니라, 이미 여러 레이어에 걸쳐 공개돼 있는데 가운데 한 층에서 포착되지 않고 있는 상태입니다.

4. FinOps의 기원이 가리키는 반복

FinOps라는 분야는 10년 전 cloud 비용 가시성 위기에 대한 대응으로 만들어졌습니다. 당시 엔터프라이즈가 직면한 문제는 “청구서는 도착하는데, 그 청구서를 누가 어떤 워크로드 때문에 쌓았는지 단위가 없다.” 그래서 단위가 만들어지고(리소스당, 태그당, 팀당), 프레임워크가 만들어지고(Inform, Optimize, Operate), 분야가 제도화됐습니다.

2026년 보고서에서 실무자 #1 challenge로 꼽힌 항목은 여전히 "비용 가시성"입니다.

AI 비용 가시성… 이 문제를 푸는 과정이 10년 전 cloud에서 있었던 것과 같은 패턴을 따르고 있다면, 단위-프레임워크 그다음 순서로, 지금 업계는 첫 단계에서 한 번 더 멈춰 있습니다. 그 단위가 문제를 절반만 담고 있기 때문입니다.

차이가 있다면 속도입니다. 10년 전 cloud 비용 단위는 몇 년에 걸쳐 수렴했습니다. AI 비용 단위는 칩 벤더가 1년 안에 power 변수를 첫 자리에 올려놨고, 일부 실무 그룹이 tokens-per-joule 같은 혼성 지표를 6개월 주기로 제안하고 있습니다. FinOps Foundation이 이 속도를 따라잡지 못하면, 공식 프레임워크와 실무 사이의 간격이 cloud 때보다 훨씬 빠르게 벌어집니다.

5. 자본으로는 풀리지 않는 것

Chris Wolf의 블로그가 CFO에게 제시하는 계산은 생각보다 단순합니다. 대형 AI 서버 한 대가 50만 달러, 3-5년 감가상각하면 연 10만 달러. 여기에 전력, 냉각, 소프트웨어, 지원을 더해야 합니다. CFO의 엑셀 안에서 이 숫자는 전부 자본으로 풀리는 변수입니다. 가격이 오르면 결재 라인을 올리고, 리드타임이 길어지면 예약을 앞당깁니다.

전력은 그렇지 않습니다. 대규모 신규 고압 인입 리드타임은 18-36개월이 보통입니다. 이 숫자는 돈으로 단축되지 않습니다. 전력회사의 증설 스케줄, 송전망 인허가, 변전소 부지 확보가 시간 위에서만 움직입니다. CFO가 GPU 견적은 승인해도, "이 지역에서 36개월 안에 20MW 추가 확보 가능"이라는 형식의 문서는 결재 테이블에 올라오지 않습니다. 그런 양식이 아직 만들어지지 않았기 때문입니다.

비용 측정의 관점에서 보면, 자본 변수는 단위로 들어올 수 있습니다. 시간 변수는 단위로 들어오기 어렵습니다. 청구서에 "이 워크로드를 배치할 수 있는 region에서 신규 전력을 받는 데 24개월이 걸린다"는 항목은 없습니다. 하지만 이 시간 변수가 어떤 region에 얼마나 AI 워크로드를 배치할 수 있는지를 이미 결정하고 있습니다.

6. 측정이 확장돼도 도달하지 않는 곳

FinOps 조직의 78%가 CTO/CIO 직속이 됐다는 숫자가 2026 보고서의 헤드라인 중 하나입니다. 2023년 대비 18%포인트 증가. 측정 권한이 기술 조직 안으로 들어왔다는 뜻입니다. FinOps 2026 프레임워크에 "Executive Strategy Alignment"라는 새 capability가 추가된 것도 같은 방향의 신호입니다.

그런데 전력에 대한 의사결정 권한은 CTO/CIO 조직 안에 있지 않습니다. 전력회사 계약, 부지 선정, 변전소 인입, 냉각 시스템 설계, 장기 PPA 협상. 이 의사결정은 facilities, real estate, utility relations, 그리고 점점 더 CFO 직속 capital projects 팀에서 이루어집니다. FinOps가 CTO 직속으로 올라간 것은 기술 조직 안에서의 이동입니다. 그 옆 조직의 의사결정 권한까지 확장된 것은 아닙니다.

IDC 숫자 하나가 이 간극의 현재 상태를 보여줍니다. 엔터프라이즈 중 FinOps가 AI 프로젝트에 실제로 embedding돼 있는 곳은 7.5%. AI 프로젝트를 움직이는 사람들 사이에 FinOps 실무자가 참여하고 있는 비율이 그 정도라는 뜻입니다. 측정 권한은 CTO 직속으로 올라왔는데, 정작 측정이 닿아야 할 AI 프로젝트 진행 현장에는 아직 참여하지 못하고 있습니다.

7. 10년 전 부터 지금까지 이어지는 질문들

10년 전 cloud 비용 가시성 위기를 관찰한 사람들이 있었습니다. 지금 AI 비용 가시성 위기를 같은 패턴으로 읽는 사람들이 있습니다. 이 글은 후자에 가깝죠.

특히 이번 주의 두 문서를 함께 봤을 때 눈에 들어온 건 칩 레이어는 이미 power 변수로 단위를 재정의했고, 일부 실무 그룹도 따라가고 있는데 FinOps 공식 프레임워크와 엔터프라이즈 현장만 아직 cloud 시대의 언어를 쓰고 있다는 간극입니다. 이 격차 속에서 지금 엔터프라이즈의 AI 인프라 의사결정이 이루어지고 있습니다.

앞으로 12-18개월 안에 FinOps for AI 워킹그룹의 문서 개정, 주요 벤더의 unit economics 프레임워크 발표, 그리고 대형 AI 인프라 프로젝트의 실패 사례가 쌓이면서 어떤 모양의 단위와 어떤 모양의 조직 구조가 수렴할지 보일 겁니다. 그 전에 각자의 조직에서 먼저 해볼 수 있는 질문은 있습니다.

여러분의 회사 FinOps practice에 전력 변수가 들어와 있나요?

들어와 있지 않다면, 그 변수를 가져올 수 있는 사람은 지금 조직도의 어느 위치에 있나요?

그리고 다음 AI 인프라 의사결정에서, 그 사람이 참여하는 프로세스는 이미 만들어져 있나요?

참고 자료

Chris Wolf, “The Real Constraint on Enterprise AI isn’t GPUs; It’s Power”, VMware Cloud Foundation Blog, 2026-04-21
FinOps Foundation, “The State of FinOps 2026 Report”, 2026
FinOps Foundation, “FinOps for AI Overview” 및 “Capability: Unit Economics”, FinOps Framework
NVIDIA Developer Blog, “Scaling Token Factory Revenue and AI Efficiency by Maximizing Performance per Watt”, 2026
Virtasant, “State of FinOps 2026 Signals Expansive Future for Practitioners”: 78% CTO/CIO 직속, 2023년 대비 +18%p 변동치
Finout, “State of FinOps 2026 Report”: 2026 Framework의 “Executive Strategy Alignment” 신규 capability
CIO Dive, “When it comes to AI spend management, CIOs are not alone”: IDC Jevin Jensen 발언, 엔터프라이즈 FinOps × AI 프로젝트 embedding 7.5%
IDC, “Balancing AI innovation and cost: The new FinOps mandate”: FutureScape 2026, G1000 AI 인프라 비용 과소추정 30% 전망
NVIDIA Blog, “New SemiAnalysis InferenceX Data Shows Blackwell Ultra Delivers up to 50x Better Performance”
Schneider Electric Blog, “AI data center design and deployment are moving at an incredible pace”: H100 rack 40kW, GB200 120-140kW
Introl, “40-250kW Racks: Extreme Density Cooling Solutions”: 전통 데이터센터 5-10kW/rack 설계
Antarctica, “The One-Token Model”: tokens-per-joule, carbon-per-prompt 프레임워크 제안