금융용어사전

어려운 금융 용어의 뜻을 확인해보세요.

한국경제신문을 뜻하는 한경이라는 글자가 씌인 로고와 한국경제라는 글자가 함께 기재되어 있습니다. 한국경제

딥시크 V3

DeepSeek V3

중국 인공지능 기업 딥시크(deepseek)가 2024년 12월 말 공개한 대형언어모델(LLM)로 오픈소스 AI 모델 중 가장 강력한 성능을 자랑한다.

6710억 개의 매개변수를 보유한 이 모델은 14조 8000억 개의 토큰으로 구성된 방대한 데이터셋에서 학습되었다.

딥시크 V3는 코딩, 번역, 수학 등 다양한 분야에서 뛰어난 성능을 보이며, 내부 벤치마크 테스트 결과 메타의 라마, 오픈AI의 GPT-4, 알리바바의 큐웬 등 경쟁 모델들을 능가했다. 특히 미국 고등학교 수학 경시대회 문제로 평가하는 'MATH' 기준에서 최고 점수를 기록해, 다른 모델들을 크게 앞섰다.

이 모델의 주목할 만한 특징은 뛰어난 GPU 효율성이다. 딥시크 V3는 메타의 라마보다 1.5배 큰 매개변수를 가졌음에도 불구하고, 훈련에 사용된 GPU는 라마의 10분의 1에 불과했다. 약 557만 달러의 비용으로 개발되어, 메타의 라마 모델 개발 비용의 약 10분의 1 수준에 그쳤다.

딥시크 V3는 미국의 고성능 반도체 수출 제한에도 불구하고 엔비디아의 H800 GPU를 사용하여 개발에 성공했다. 이는 중국 기업의 기술력과 자원 활용 능력을 보여주는 사례로 평가받고 있다.

한편, 이 모델은 중국의 민감한 정치적 이슈에 대해서는 응답하지 않는 제한점이 있다. 예를 들어, 천안문 광장에 대한 질문에는 대답하지 않는다. 그럼에도 불구하고, 딥시크 V3는 오픈소스로 공개되어 개발자들이 상업용을 포함한 다양한 애플리케이션에 활용할 수 있어, AI 기술 발전에 큰 기여를 할 것으로 기대된다.

한국경제신문을 뜻하는 한경이라는 글자가 씌인 로고와 한국경제라는 글자가 함께 기재되어 있습니다. 한국경제

딥시크

DeepSeek

딥시크(DeepSeek)는 오픈 소스 대규모 언어 모델(LLM)을 개발하는 중국의 인공지능 연구 기업이자 해당 기업이 개발한 AI 모델의 명칭이다. 딥시크는 인공지능 기반 자연어 처리(NLP) 기술을 연구하며, 고성능 AI 모델을 통해 글로벌 AI 생태계에서 경쟁력을 확보하는 것을 목표로 하고 있다.

2023년 5월 중국 헤지펀드인 하이플라이어의 대표 량원펑이 설립한 딥시크는 2024년 12월, GPT-4와 경쟁할 수 있는 대규모 언어 모델 DeepSeek-V3를, 2025년 1월 20일에는 고성능 추론 모델인 DeepSeek-R1을 공개했다.

DeepSeek-V3 모델
DeepSeek-V3는 6,710억 개의 매개변수를 보유한 초대형 언어 모델로, 메타(Meta)의 Llama 3.1보다 약 1.5배 더 큰 규모를 자랑하며, 오픈소스로 제공된다. 벤치마크 테스트에서는 메타의 Llama 3.1, 오픈AI의 GPT-4, 앤트로픽의 Claude 3.5, 구글의 Gemini 모델과 대등하거나 이를 능가하는 성능을 기록했다. 특히, 국제 프로그래밍 테스트 코드포스(Codeforces)에서 뛰어난 코딩 능력을 보였으며, MMLU 벤치마크에서 88.5점을 기록하여 GPT-4와 근소한 차이를 보였다.

딥시크는 상대적으로 낮은 비용과 최적화된 연산 기술을 통해 고성능 AI 모델을 개발하는 전략을 채택하고 있다. V3 모델의 개발 비용은 약 557만 달러(한화 약 82억 원)로, 메타의 Llama 3 모델 개발비(약 6억 4,000만 달러)의 1% 수준에 불과하다. 또한, 엔비디아의 최신 AI 칩인 H100 대신 H800을 사용하여 컴퓨팅 자원을 최적화함으로써 비용 효율성을 극대화했다.

그러나 딥시크의 V3 모델은 정치적으로 민감한 이슈에 대한 답변을 기피하는 경향이 있으며, 환각(hallucination) 문제 등의 한계를 지적받고 있다. 이러한 문제를 해결하는 것이 향후 딥시크 AI의 과제가 될 것으로 보인다.

DeepSeek-R1 모델
DeepSeek-R1은 딥시크가 2025년 1월 20일 공개한 고성능 추론 모델(Inference Model)로, 효율적인 연산과 실시간 응답 성능을 극대화하도록 설계되었다. V3 모델이 주로 대규모 AI 학습과 생성 모델의 성능을 극대화하는 데 집중한 반면, R1 모델은 보다 실용적인 환경에서 빠르고 정확한 답변을 제공하는 데 초점을 맞추고 있다.

특히, R1은 엔비디아의 H800 칩을 활용한 저비용 고성능 AI 모델로 개발되어 기업용 애플리케이션, 실시간 챗봇, 검색 엔진 강화 등에 활용될 것으로 기대된다. 기존의 고성능 AI 모델들이 높은 연산 비용과 GPU 의존성이 컸던 반면, R1 모델은 최적화된 아키텍처를 통해 더 적은 자원으로도 안정적인 성능을 유지할 수 있다.

현재 R1 모델은 중국 내 기업 및 기관들의 다양한 AI 서비스에 채택되고 있으며, 의료, 금융, 교육 분야에서 활용 가능성이 높다고 평가받고 있다. 그러나 데이터 편향성과 일부 특정 분야에서의 한계가 지적되고 있으며, 이러한 점을 개선하기 위한 지속적인 업데이트가 필요할 것으로 보인다.