퀵하게 보기
- V4 핵심: 어텐션 아키텍처 개선 → 연산 및 메모리 효율성 제고 → 컨텍스트 윈도우 확장
- 방식은 다르지만 결국 메모리 효율성을 개선한 딥시크 V4와 구글 터보퀀트
- 확산될 컨텍스트 윈도우 확장 및 가격 인하 트렌드, 메모리 수요 감소 우려는 과대
■ V4 핵심: 어텐션 아키텍처 개선 → 연산 및 메모리 효율성 제고 → 컨텍스트 윈도우 확장
4월 24일 발표된 딥시크 V4 모델의 특징은 긴 컨텍스트 (약 100만 토큰)의 요청을 효율적으로 처리하는 점이다.
성능 자체는 기존 글로벌 SOTA (State of the art) 모델과 유사하거나 오히려 낮은 수준이다.
그러나 전작인 V3.2 모델 대비 1개 추론 토큰 생성 시 필요 연산력 27%, 필요 KV캐시가 10% 수준으로 줄어들면서 연산 효율성이 큰폭으로 개선되었다.
V4의 전작 대비 개선점은 ① 하이브리드 어텐션 아키텍처 설계, ② mHC 잔차 연결 방법론, ③ Muon 옵티마이저에 기인한다.
이 중에서 CSA (Compressed Sparse Attention)와 HCA (Heavily Compressed Attention) 메커니즘을 교차 연산하는 하이브리드 어텐션 아키텍처가 연산 효율 개선의 주요 요인이다.
AI의 성능 개선과 함께 컨텍스트의 양이 길어지면서 연산 병목의 주요 요인으로 부상 중인 어텐션 메커니즘을 개선했기 때문이다.
KB증권은 동 조사분석자료를 기관투자가 또는 제3자에게 사전 제공한 사실이 없습니다. 본 자료를 작성한 조사분석담당자는 해당 종목과 재산적 이해관계가 없습니다. 본 자료 작성자는 게제된 내용들이 본인의 의견을 정확하게 반영하고 있으며, 외부의 부당한 압력이나 간섭 없이 신의 성실 하게 작성되었음을 확인합니다.