DeepSeek
딥시크(DeepSeek)는 오픈 소스 대규모 언어 모델(LLM)을 개발하는 중국의 인공지능 연구 기업이자 해당 기업이 개발한 AI 모델의 명칭이다. 딥시크는 인공지능 기반 자연어 처리(NLP) 기술을 연구하며, 고성능 AI 모델을 통해 글로벌 AI 생태계에서 경쟁력을 확보하는 것을 목표로 하고 있다.
2023년 5월 중국 헤지펀드인 하이플라이어의 대표 량원펑이 설립한 딥시크는 2024년 12월, GPT-4와 경쟁할 수 있는 대규모 언어 모델 DeepSeek-V3를, 2025년 1월 20일에는 고성능 추론 모델인 DeepSeek-R1을 공개했다.
DeepSeek-V3 모델
DeepSeek-V3는 6,710억 개의 매개변수를 보유한 초대형 언어 모델로, 메타(Meta)의 Llama 3.1보다 약 1.5배 더 큰 규모를 자랑하며, 오픈소스로 제공된다. 벤치마크 테스트에서는 메타의 Llama 3.1, 오픈AI의 GPT-4, 앤트로픽의 Claude 3.5, 구글의 Gemini 모델과 대등하거나 이를 능가하는 성능을 기록했다. 특히, 국제 프로그래밍 테스트 코드포스(Codeforces)에서 뛰어난 코딩 능력을 보였으며, MMLU 벤치마크에서 88.5점을 기록하여 GPT-4와 근소한 차이를 보였다.
딥시크는 상대적으로 낮은 비용과 최적화된 연산 기술을 통해 고성능 AI 모델을 개발하는 전략을 채택하고 있다. V3 모델의 개발 비용은 약 557만 달러(한화 약 82억 원)로, 메타의 Llama 3 모델 개발비(약 6억 4,000만 달러)의 1% 수준에 불과하다. 또한, 엔비디아의 최신 AI 칩인 H100 대신 H800을 사용하여 컴퓨팅 자원을 최적화함으로써 비용 효율성을 극대화했다.
그러나 딥시크의 V3 모델은 정치적으로 민감한 이슈에 대한 답변을 기피하는 경향이 있으며, 환각(hallucination) 문제 등의 한계를 지적받고 있다. 이러한 문제를 해결하는 것이 향후 딥시크 AI의 과제가 될 것으로 보인다.
DeepSeek-R1 모델
DeepSeek-R1은 딥시크가 2025년 1월 20일 공개한 고성능 추론 모델(Inference Model)로, 효율적인 연산과 실시간 응답 성능을 극대화하도록 설계되었다. V3 모델이 주로 대규모 AI 학습과 생성 모델의 성능을 극대화하는 데 집중한 반면, R1 모델은 보다 실용적인 환경에서 빠르고 정확한 답변을 제공하는 데 초점을 맞추고 있다.
특히, R1은 엔비디아의 H800 칩을 활용한 저비용 고성능 AI 모델로 개발되어 기업용 애플리케이션, 실시간 챗봇, 검색 엔진 강화 등에 활용될 것으로 기대된다. 기존의 고성능 AI 모델들이 높은 연산 비용과 GPU 의존성이 컸던 반면, R1 모델은 최적화된 아키텍처를 통해 더 적은 자원으로도 안정적인 성능을 유지할 수 있다.
현재 R1 모델은 중국 내 기업 및 기관들의 다양한 AI 서비스에 채택되고 있으며, 의료, 금융, 교육 분야에서 활용 가능성이 높다고 평가받고 있다. 그러나 데이터 편향성과 일부 특정 분야에서의 한계가 지적되고 있으며, 이러한 점을 개선하기 위한 지속적인 업데이트가 필요할 것으로 보인다.