퀵하게 보기
- H100 렌탈 가격 40% 반등: 출시 5년차 구세대 GPU가 품귀를 보이는 구조적 이유
- 칩 ‘가격 역전 현상’의 세 가지 구조적 수요 변화
- 관련 수혜주: 네오 클라우드, HBM, 네트워킹, 전력/냉각, 저장장치 등
■ H100 렌탈 가격 40% 반등: 출시 5년차 구세대 GPU가 품귀를 보이는 구조적 이유
최근 구형 H100 칩의 1년 렌탈 가격이 2025년 10월 시간당 1.70달러에서 2026년 3월 2.35달러로 약 40% 급등하는 이례적 흐름이 나타났다.
이는 제품의 수요/공급 (온디맨드 GPU 용량 사실상 완전 매진, 블랙웰 신규 배치 리드타임 6~7개월 지연) 외에도 구조적 원인 (하이브리드 추론 분리 아키텍쳐 확산에 따른 ‘호퍼칩 역할 재정의’, AI 에이전트/코드 생성 AI의 폭발적 수요 증가)에서 기인하고 있다.
이에 따라 네오 클라우드, HBM, 네트워킹, 전력/냉각, 저장장치 기업의 수혜가 예상된다.
■ 칩 ‘가격 역전 현상’의 세 가지 구조적 수요 변화
첫째, 추론 분리 아키텍처 (Disaggregated Serving)의 확산으로 호퍼칩의 경제적 수명이 연장되고 있다.
LLM 추론은 내부적으로 연산 집약적인 사전 처리 (Prefill)와 메모리 대역폭 집약적인 생성 (Decode) 두 단계로 나뉘며, 이를 물리적으로 분리해 각각에 최적화된 GPU를 배치하는 방식이 상용화되고 있다.
블랙웰은 FP4 지원과 초당 8TB 메모리 대역폭을 앞세워 전 단계에서 호퍼 대비 11~15배 빠른 처리량을 보여주지만, 블랙웰의 공급이 수요를 따라잡지 못하는 상황에서 호퍼칩은 비용 효율적인 보조 추론 및 백그라운드 워크로드 처리에 여전히 경쟁력을 유지하고 있다.
즉, 블랙웰의 등장이 H100을 퇴역시킨 것이 아니라 보완적 역할을 부여하면서, 두 세대의 GPU가 동시에 소진되는 구조가 형성된 것이다.
둘째, AI 에이전트의 확산이 토큰 소비를 폭발적으로 끌어올리고 있다.
에이전트는 다단계 추론, 외부 도구 호출, 자기 검증을 반복하면서 기존 챗봇과는 비교할 수 없이 많은 토큰을 소비한다.
토큰 단가는 2년간 280배 하락했지만 멀티 에이전트 루프의 비선형적 수요 증가로 기업의 실제 AI 비용은 오히려 급등하는 역설이 발생하고 있다.
셋째, 코드 생성 AI가 구조적 GPU 소비원으로 부상했다.
코드 생성은 수만 줄의 코드베이스를 컨텍스트로 입력해야 하므로 Prefill 부하가 극대화되고, 생성/검증/수정을 반복하면서 세션당 수십 회의 추론 호출이 발생하고 있다.
앤트로픽의 연간반복매출 (ARR)이 한 분기 만에 90억 달러에서 250억 달러 이상으로 약 3배 급증한 것이 이를 단적으로 보여준다.
이와 같은 변화의 구조적 공통분모는 하나다.
추론 1건당 토큰 소비량이 과거와 비교할 수 없이 커졌다는 것이다.
챗봇에서 멀티 에이전트 루프, 코드 생성, 미디어 제작으로 사용 패턴이 진화하면서 GPU 사용 시간이 기하급수적으로 늘어나고 있다.
공급 측에서도 TSMC N3 웨이퍼, HBM, DRAM 전반의 부족이 심화되며 "거대 AI 실리콘 쇼티지"가 가격 반등을 부채질하고 있다.
KB증권은 동 조사분석자료를 기관투자가 또는 제3자에게 사전 제공한 사실이 없습니다. 본 자료를 작성한 조사분석담당자는 해당 종목과 재산적 이해관계가 없습니다. 본 자료 작성자는 게제된 내용들이 본인의 의견을 정확하게 반영하고 있으며, 외부의 부당한 압력이나 간섭 없이 신의 성실 하게 작성되었음을 확인합니다.