AI가 조직 전체에 확산하지 못하는 이유

AI 오케스트레이션을 통한 조직 내 AI 접근성 확대 전략 1화
시리즈 총 6화
2025.04.28

읽는시간 4

0

■ 챗GPT 등장을 기점으로 거대언어모델(Large Language Model, LLM)은 인간 수준의 언어 이해와 생성 능력을 갖춘 인공지능(AI) 기술로서 전 산업에 걸쳐 주목받고 있음

○ LLM은 이미 다양한 벤치마크에서 평균적인 인간 수준을 뛰어넘는 성능을 보여주고 있으며, 일부 고난도 평가에서도 인간 전문가에 근접하는 결과를 기록

고난도 평가 벤치마크

벤치마크 세부 내용
MMMU
(Massive Multi-discipline Multimodal Understanding)
다양한 분야의 대학 수준 과제에 대해 멀티모달멀티모달¹ AI 모델을 평가하기 위해 설계된 새로운 벤치마크
GPQA
(Graduate-level Google-Proof Q&A Benchmark)
물리학, 화학, 생물학 분야의 전문가들이 작성한 대학원 수준의 복잡한 문제들로 구성되어 AI 언어 모델의 고급 추론 능력을 평가하기 위해 설계된 벤치마크
SWE-bench 실제 소프트웨어 엔지니어링 문제를 다루는 언어 모델 평가 벤치마크로, 깃허브(GitHub)의 인기 파이썬 저장소에서 수집한 2,294 개의 이슈와 해당 풀 리퀘스트²로 구성 됨. 모델이 주어진 문제를 해결하기 위해 코드베이스를 수정하고, 수정 내용이 단위 테스트를 통과하는지를 평가

자료: KB경영연구소

 

  • 2025년 2월 7일 기준 GPT-4가 86.4%의 정확도를 기록하여 89.8%를 달성한 인간 전문가에 근접한 성능을 보임

  • 2025년 4월 4일 기준 GPQA 다이아몬드(GPQA Diamond) 세트³에서는 제미나이 2.5 프로(Gemini 2.5 Pro)가 80.3%, 클로드 3.7 소네트(Claude 3.7 Sonnet)가 75.3%를 달성하여 인간 전문가의 81.3%에 근접한 수치를 보였음

  • 2025년 1월 10일 기준 SWE-벤치 베리파이드(SWE-bench Verified) 세트⁴에서 구글의 Learn-by-interact 모델이 60.2%의 성능을 달성하며 특정 문제에는 인간처럼 코드 작성이 가능하다고 여겨짐

¹ 텍스트, 이미지, 음성, 영상, 센서 등 여러 종류의 데이터 형태(Modality)를 동시에 이해하고 처리할 수 있는 능력

² 개발자가 깃허브 저장소(Repository)에서 코드 변경 사항을 제안하고, 이를 프로젝트에 반영해달라고 요청하는 방식

³ 전문가 집단은 모두 맞추었지만, 비전문가 중에는 3분의 1 미만이 정답을 맞춘 세트

⁴ 다수의 인간 평가자가 검토하여 확실히 해결 가능하다고 판단한 500개의 문제를 모아놓은 데이터세트로, 이론적으로는 100% 해결 가능한 SWE-벤치의 하위 집합

○ 이러한 추세에 발맞춰 전 세계적으로 국가 차원의 투자 확대와 함께 기업의 AI 도입률이 빠르게 증가하고 AI에 대한 인식도 ‘일상적인 도구’로 변화하고 있음
 

  • 생성형 AI를 하나 이상의 직무에 사용한다고 응답한 기업 비율도 2023년 33%에서 2024년 71%로 2배 이상 증가

  • 2024년 전 세계 기업의 인수합병(M&A), 민간 투자, 주식 공모 등을 포함한 AI 관련 총투자액은 2,523억 달러로 전년 대비 25.5% 증가

    - 미국의 AI 관련 민간 투자는 1,091억 달러로 2위 중국(93억 달러)의 12배, 3위 영국(45억 달러)의 24배에 달함

    - 생성형 AI 분야 민간 투자는 339억 달러로 전년 대비 18.7%, 2022년 대비 8.5배 이상 성장

  • 각국 정부는 AI 기술 경쟁력을 확보하기 위해 대규모 투자 계획을 발표

    - 캐나다(24억 달러), 중국(475억 달러 규모의 반도체 펀드 조성), 프랑스(1,090억 유로), 인도(12억 5천 달러), 사우디아라비아[‘프로젝트 트랜센던스(Project Transcendence)’를 통해 1천억 달러]

○ 최근에는 범용인공지능(Artificial General Intelligence, AGI)에 가장 가까운 것으로 평가받는 중국 스타트업 모니카의 마누스(Manus)가 등장하며 향후 AI 에이전트가 나아갈 방향을 제시
 

  • 마누스 AI는 멀티모달 입력을 실시간으로 통합하고 분석하여 인간처럼 상호작용하며 문제를 해결하는 고성능 AI 에이전트를 의미

    - 앤트로픽의 클로드 3.5 소네트를 기반으로 수십 개의 툴과 외부 시스템을 적용하여 멀티 에이전트 협업 시스템을 구축하며 단순한 질의응답을 넘어 복잡한 업무 수행이 가능

■ 그러나 대부분의 조직에서는 여전히 LLM의 최적 모델 선택, 부정확한 답변, 그리고 기술적 한계 등으로 인해 전사적으로 모든 직원이 AI를 직접 활용하는 데 한계가 있음

○ 많은 기업이 AI에 관심을 갖고 투자에 나서고 있지만, 조직 전반에서 폭넓게 활용되지 못하면서 AI 도입은 예상보다 더디게 진행되고 있음
 

  • 보스턴컨설팅그룹(BCG)의 글로벌 설문⁵에 따르면, 조사 대상 기업의 74%는 AI를 활용하여 아직까지 뚜렷한 가치를 실현하지 못하는 것으로 나타남

    - AI 파일럿 프로젝트와 개념 증명(PoC⁶)은 많지만 생산 단계로 연결되는 사례는 소수이며, 26%의 기업만이 PoC 단계를 넘어 스케일업(Scale Up, 사업 확장)할 역량을 갖춘 것으로 평가됨

  • 인사관리 전문 매체 《HR 인사이트(HR Insight)》의 설문조사에서는 전체 응답자의 36%만이 AI를 도입했거나 도입을 계획 중이라 답변⁷

    - AI를 도입하지 않았다고 답변한 응답자들은 가장 큰 이유로 ‘AI 활용 전략의 부재(22%)’를 꼽았고, ‘AI 도입 및 적용 비용(17%)’도 주요 장애물로 확인됨

  • 대한상공회의소의 설문조사⁸에 따르면, 조사 대상 기업의 절반(49.0%) 정도는 아직 AI 도입 계획이 없다고 응답했으며, ‘기술 및 IT 인프라 부족(34.6%)’, ‘비용 부담(23.1%)’, ‘신뢰성에 대한 의문(10.1%)’ 등을 주된 이유로 꼽음

향후 AI 도입 계획

향후 'AI 도입' 계획에 대한 설문조사를 원 그래프로 나타내었다.

자료: 대한상공회의소

AI 기술 미활용 이유

'AI 기술'을 '미활용'하는 이유에 대한 응답을 보여주는 그래프이다.

자료: 대한상공회의소

⁵ BCG, October 24, 2024, “AI Adoption in 2024: 74% of Companies Struggle to Achieve and Scale Value”

⁶ Proof of Concept, 아이디어나 기술의 실현 가능성을 검증하는 절차

⁷ 브런치스토리, 2024.6.29, “AI의 성공적 도입을 위한 조직관리”

⁸ 대한상공회의소, 2024, “국내 기업 AI 기술 활용 실태 조사”

○ [최적 모델 선택의 어려움] 기업들은 LLM 개발보다는 실질적 활용에 방점을 두고 있으나, 성능이 빠르게 개선되는 생태계에서 “가장 적합한 LLM을 언제, 어떻게 선택할 것인가”는 향후 AI 활용의 효율성과 지속 가능성을 좌우할 핵심 요인으로 부각
 

  • 특히 금융과 같이 보안 요구 사항이 높은 산업에서는 온프레미스(On-premise)⁹ 기반의 AI 운영이 요구되어 초기 진입장벽이 더욱 높음

    - 금융위원회는 2024년 8월 13일 발표한 ‘금융 분야 망 분리 개선 로드맵’에서 규제 샌드박스 특례 조치를 통해 예상되는 리스크에 대한 보안 대책 마련을 조건으로 금융회사의 생성형 AI 활용을 허용할 것임을 밝힘

  • AI 모델 학습에 필요한 컴퓨팅 파워는 약 5개월마다, 데이터세트 크기는 약 8개월마다, 학습 전력 소비량은 매년 2배 증가

⁹ 기업이나 조직이 자체 데이터센터나 서버실과 같은 물리적인 공간에 하드웨어와 소프트웨어를 직접 설치하고 관리

○ [데이터 품질 및 편향성] LLM이 여전히 사실과 다른 정보를 생성하는 ‘환각(hallucination)’ 문제를 완전히 극복하지 못함에 따라 AI에 대한 신뢰가 아직 부족하며 데이터 편향에 대한 우려 역시 큰 장애 요소
 

  • AI의 부정확한 답변은 사용자의 신뢰도를 저하시킬 뿐 아니라 자동화 시스템 내 오남용 가능성을 높여 도입 속도를 떨어뜨리는 요인 중 하나

    - 특히 금융, 법률, 의료처럼 정합성과 정확성이 핵심인 산업에서는 환각 현상이 치명적인 오류로 이어질 수 있어 전사적 확산에 대한 장애물로 작용

  • 자사에 맞는 충분한 양의 고품질 데이터를 확보하지 못해 AI 모델 최적화에 어려움을 토로하는 기업들도 다수

○ [기술적 한계] LLM은 웹 상의 방대한 텍스트, 문서, 코드 등을 기반으로 사전 학습하기 때문에 일반적인 언어 이해나 상식 습득에서는 우수한 성능을 보이지만, 기업의 고유한 업무 처리에는 어려움이 존재
 

  • 최대 입력 토큰¹⁰이 제한되어 있기 때문에 긴 문서를 처리해야 할 경우에는 별도의 전처리 로직이 필요

  • 문장과 섞여 있거나 행렬이 복잡하게 병합된 표에 대해서는 주변 텍스트와 혼동하는 등 인식률이 떨어져 부정확한 응답을 생성할 수 있음

  • 동일한 질문에도 반복 요청 시 결과가 달라질 수 있어 한 가지 문제에 대해 항상 같은 결과를 기대하는 업무에서는 적용이 매우 제한됨

¹⁰ LLM이 언어를 처리하는 최소 단위

○ [명확한 비즈니스 성공 사례 부재 및 투자 성과의 불투명성] AI 도입으로 일부 비용 절감과 매출 증대 효과가 나타나고 있지만, 향상되는 수준이 대부분 5~10% 미만에 머무는 등 아직 가치 창출 초기 단계를 벗어나지 못하고 있음
 

  • IBM의 설문조사¹¹에 따르면, 조사 대상 기업 중 42%가 AI 활용 확대를 주저하는 요인으로 뚜렷한 재무적 타당성이나 성공 사례 부재를 언급

    - AI 도입으로 비용 절감이나 매출 증대가 얼마나 가능한지 명확하지 않으면 경영진의 설득이 어렵기 때문

  • AI를 핵심 전략과 연계하지 못하고 부서별 산발적 실험에 머무르는 경우, 가시적 성과가 적어 후속 투자가 위축되는 악순환이 발생하기도 함

¹¹ IBM, 14 February, 2025, “The 5 biggest AI adoption challenges for 2025”

○ [조직 문화 및 인적 요인] 새로운 기술에 대한 구성원의 저항과 변화관리 실패도 중요한 문제
 

  • 조직 구성원이 AI로 인해 일자리 위협을 느끼거나 출력 결과에 불신을 갖는 경우 활용이 제한될 수 있음

    - BCG의 설문조사¹²에서 조사 대상 기업들은 AI 도입 시 직면하는 어려움의 70%가 구성원과 프로세스 이슈에서 기인한다고 밝힘. 이는 변화관리, 협업 방식, 업무 재설계 등에 대한 준비 부족과 저항이 기술적 문제보다 더 큰 장애가 되고 있음을 의미

¹² BCG, Ibid.

○ [거버넌스, 규제 및 보안 우려] 명확한 AI 거버넌스 체계의 부재에 따른 의사결정의 투명성 및 책임성 부족과 규제 준수 리스크에 대한 우려가 활용 확대를 저해할 수 있음
 

  • 특히 금융과 같이 규제가 엄격한 산업에서는 AI 출력 결과에 대한 설명 가능성과 감시 대응 체계 미비 시 전사적 활용이 어려울 수 있음

  • AI 활용에 따른 윤리적 책임 규정과 위험관리 체계(AI 거버넌스)가 마련되지 않으면 조직 내 신뢰 확보가 어려워지고, 이로 인해 일부 부서에서 도입을 꺼리게 되면서 활용 격차가 확대될 수 있음

■ 2022년 챗GPT 등장 이후 다양한 AI 서비스가 출현하고 기업이 AI를 적극 도입하고 있지만 여러 가지 복잡성과 제약이 존재. 따라서 성공적인 AI 도입을 위해 단순히 기술을 도입하는 차원을 넘어 조직 전반에 걸친 체계적이고 전략적인 접근이 필요

○ 기업의 AI 활용도가 증가하면서 처리해야 할 데이터 양이 증가하고 업무 프로세스가 복잡해졌으며, 이로 인해 단일 AI 모델로는 산업 현장의 세분화되고 복잡한 업무를 효과적으로 해결하기 어렵다는 한계가 부각

최승우

KB경영연구소

최승우

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

이미지