■ 챗GPT 등장을 기점으로 거대언어모델(Large Language Model, LLM)은 인간 수준의 언어 이해와 생성 능력을 갖춘 인공지능(AI) 기술로서 전 산업에 걸쳐 주목받고 있음
○ LLM은 이미 다양한 벤치마크에서 평균적인 인간 수준을 뛰어넘는 성능을 보여주고 있으며, 일부 고난도 평가에서도 인간 전문가에 근접하는 결과를 기록
읽는시간 4분
○ LLM은 이미 다양한 벤치마크에서 평균적인 인간 수준을 뛰어넘는 성능을 보여주고 있으며, 일부 고난도 평가에서도 인간 전문가에 근접하는 결과를 기록
벤치마크 | 세부 내용 |
MMMU (Massive Multi-discipline Multimodal Understanding) |
다양한 분야의 대학 수준 과제에 대해 멀티모달멀티모달¹ AI 모델을 평가하기 위해 설계된 새로운 벤치마크 |
GPQA (Graduate-level Google-Proof Q&A Benchmark) |
물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성되어 AI 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크 |
SWE-bench | 실제 소프트웨어 엔지니어링 문제를 다루는 언어 모델 평가 벤치마크로, 깃허브(GitHub)의 인기 파이썬 저장소에서 수집한 2,294 개의 이슈와 해당 풀 리퀘스트²로 구성 됨. 모델이 주어진 문제를 해결하기 위해 코드베이스를 수정하고, 수정 내용이 단위 테스트를 통과하는지를 평가 |
자료: KB경영연구소
¹ 텍스트, 이미지, 음성, 영상, 센서 등 여러 종류의 데이터 형태(Modality)를 동시에 이해하고 처리할 수 있는 능력
² 개발자가 깃허브 저장소(Repository)에서 코드 변경 사항을 제안하고, 이를 프로젝트에 반영해달라고 요청하는 방식
³ 전문가 집단은 모두 맞추었지만, 비전문가 중에는 3분의 1 미만이 정답을 맞춘 세트
⁴ 다수의 인간 평가자가 검토하여 확실히 해결 가능하다고 판단한 500개의 문제를 모아놓은 데이터세트로, 이론적으로는 100% 해결 가능한 SWE-벤치의 하위 집합
○ 이러한 추세에 발맞춰 전 세계적으로 국가 차원의 투자 확대와 함께 기업의 AI 도입률이 빠르게 증가하고 AI에 대한 인식도 ‘일상적인 도구’로 변화하고 있음
○ 최근에는 범용인공지능(Artificial General Intelligence, AGI)에 가장 가까운 것으로 평가받는 중국 스타트업 모니카의 마누스(Manus)가 등장하며 향후 AI 에이전트가 나아갈 방향을 제시
○ 많은 기업이 AI에 관심을 갖고 투자에 나서고 있지만, 조직 전반에서 폭넓게 활용되지 못하면서 AI 도입은 예상보다 더디게 진행되고 있음
향후 AI 도입 계획
자료: 대한상공회의소
AI 기술 미활용 이유
자료: 대한상공회의소
⁵ BCG, October 24, 2024, “AI Adoption in 2024: 74% of Companies Struggle to Achieve and Scale Value”
⁶ Proof of Concept, 아이디어나 기술의 실현 가능성을 검증하는 절차
⁷ 브런치스토리, 2024.6.29, “AI의 성공적 도입을 위한 조직관리”
⁸ 대한상공회의소, 2024, “국내 기업 AI 기술 활용 실태 조사”
○ [최적 모델 선택의 어려움] 기업들은 LLM 개발보다는 실질적 활용에 방점을 두고 있으나, 성능이 빠르게 개선되는 생태계에서 “가장 적합한 LLM을 언제, 어떻게 선택할 것인가”는 향후 AI 활용의 효율성과 지속 가능성을 좌우할 핵심 요인으로 부각
⁹ 기업이나 조직이 자체 데이터센터나 서버실과 같은 물리적인 공간에 하드웨어와 소프트웨어를 직접 설치하고 관리
○ [데이터 품질 및 편향성] LLM이 여전히 사실과 다른 정보를 생성하는 ‘환각(hallucination)’ 문제를 완전히 극복하지 못함에 따라 AI에 대한 신뢰가 아직 부족하며 데이터 편향에 대한 우려 역시 큰 장애 요소
○ [기술적 한계] LLM은 웹 상의 방대한 텍스트, 문서, 코드 등을 기반으로 사전 학습하기 때문에 일반적인 언어 이해나 상식 습득에서는 우수한 성능을 보이지만, 기업의 고유한 업무 처리에는 어려움이 존재
¹⁰ LLM이 언어를 처리하는 최소 단위
○ [명확한 비즈니스 성공 사례 부재 및 투자 성과의 불투명성] AI 도입으로 일부 비용 절감과 매출 증대 효과가 나타나고 있지만, 향상되는 수준이 대부분 5~10% 미만에 머무는 등 아직 가치 창출 초기 단계를 벗어나지 못하고 있음
¹¹ IBM, 14 February, 2025, “The 5 biggest AI adoption challenges for 2025”
○ [조직 문화 및 인적 요인] 새로운 기술에 대한 구성원의 저항과 변화관리 실패도 중요한 문제
¹² BCG, Ibid.
○ [거버넌스, 규제 및 보안 우려] 명확한 AI 거버넌스 체계의 부재에 따른 의사결정의 투명성 및 책임성 부족과 규제 준수 리스크에 대한 우려가 활용 확대를 저해할 수 있음
○ 기업의 AI 활용도가 증가하면서 처리해야 할 데이터 양이 증가하고 업무 프로세스가 복잡해졌으며, 이로 인해 단일 AI 모델로는 산업 현장의 세분화되고 복잡한 업무를 효과적으로 해결하기 어렵다는 한계가 부각
KB경영연구소
금융용어사전