AI 철학과 지향점 차이: 효용 vs. 통제

AI를 바라보는 두 가지 시선 - 오픈AI와 앤스로픽 이야기 3화
26.05.28.
읽는시간 0

작게

보통

크게

0

[AGI를 바라보는 세계관] 위험 감수가 불가피한 인류의 목적지 vs. 위험한 미지의 영역

○ (오픈AI) AGI는 인류가 빠르게 도달해야 할 목적지로, 신속하고 반복적인 배포로 실제 환경의 피드백을 수렵하고 이를 바탕으로 모델을 개선해 나가는 전략을 채택

  • “수익 없이는 AGI 개발도 불가하다”는 논리를 앞세워, 상업화와 신속한 배포를 단순한 수익 창출을 넘어 사명 달성을 위한 필수 수단으로 정당화. 상업화를 통해 창출된 수익은 안전 연구와 인프라에 재투자해 선순환을 유도
  • 올트먼은 AGI 도달 과정에서 발생하는 모든 위험을 사전 예측하는 것은 불가능하며, 빠르고 반복적인 배포를 통해 실제 환경에서 발생하는 위험을 지속적으로 개선해 나가야 한다는 입장

○ (앤스로픽) AGI는 인류 역사상 가장 위험한 미지의 영역

  • 다리오 아모데이는 “우리는 아마도 매우 위험한 것을 만들고 있다”고 공개적으로 언급하며 기술적 사춘기를 지나고 있는 AI가 초래할 자율성 리스크, 파괴적 오용, 경제적 혼란에 대한 경계심을 드러냄
  • 속도보다 안전성을 중시해 모델의 지능이 높아질수록 그에 상응하는 법적·기술적 안전장치가 내재화되어야 한다고 강조. 신속한 배포를 통한 현실 학습보다 배포 이전의 정렬(alignment), 즉 AI 시스템의 목표와 행동이 인간의 의도 및 가치관에 실질적으로 부합하는 상태를 중시

[AI 학습 방식] 경험 기반 vs. 원칙 기반

○ (오픈AI) ‘인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)’과 숙고적 정렬(Deliberative Alignment)을 활용

  • RLHF는 인간 평가자가 AI의 답변 중 사용자 선호도가 높은 것을 선택함으로써 모델의 말투와 태도를 교정하는 학습 방식. 사용자에게 친근하고 매끄러운 대화 능력을 습득하는 데 유용한 반면, 모델이 인간의 비위를 맞추거나 아첨하는 부작용을 낳기 쉽다는 한계를 노출
  • 2024년 말 공개된 숙고적 정렬은 모델에게 안전 규칙을 학습시킨 후 응답 전에 이를 기반으로 추론하도록 유도하는 학습 방식. RLHF의 한계를 보완하기 위한 새로운 접근법으로 평가받음

○ (앤스로픽) ‘헌법적 AI(Constitutional AI)’라는 독자적인 체계를 구축

  • 인간의 피드백에만 의존하지 않고 AI가 사전에 정해진 원칙 헌법에 따라 스스로 답변을 검증하고 교정하도록 유도하는 학습 방식
  • 헌법적 AI는 RLHF의 주관적 편향을 극복하고 모델의 일관성과 윤리적 안정성을 향상하는 데 기여. 특히 금융·의료 등 답변의 정확성과 신뢰도가 중요한 산업군에서 클로드(Claude) 모델이 GPT보다 우수한 평가를 받는 요인이 됨
  • 2026년 1월, 헌법을 개정하여 기존의 ‘무엇을 해야 하는지 나열하는’ 방식에서 ‘각 원칙이 존재하는 이유를 설명하는’ 방식으로 전환하여, 예상치 못한 상황에서 AI가 보다 정교한 판단을 내릴 수 있도록 설계

[안전 거버넌스] 준비 프레임워크 vs. 책임 있는 확장 정책

○ (오픈AI) 안전 관리 체계인 ‘준비 프레임워크(Preparedness Framework)’를 기반으로 고위험 영역 모델의 잠재적 위험을 선제적으로 평가하여, 도출된 위험 등급에 따라 완화 조치를 적용하고 배포 가능 여부를 결정

○ (앤스로픽) ‘책임 있는 확장 정책(Responsible Scaling Policy, RSP)’³ 을 기반으로 단계별 안전 등급 체계인 AI 안전 수준(AI Safety Level, ASL)⁴ 에 따라 모델의 위험 수준을 평가하며, 일정 수준 이상으로 고도화될 경우 그에 걸맞은 강화된 안전 조치를 적용

  • 2026년 4월, 최신 모델 클로드 미토스(Claude Mythos)의 테스트 과정에서 고도화된 사이버 공격 수행 능력을 감지하고 일반 공개를 보류하기로 결정. 대신 약 52개 이상 기술·금융회사와 협력하여 취약점 탐지 및 패치 등의 방어로 목적을 전환하여 개발하는 ‘프로젝트 글라스윙(Project Glasswing)’을 공식 출범. 이는 책임 있는 확장 정책이 실제로 작동한 대표적 사례

오픈AI와 앤스로픽의 안전에 대한 인식과 구현 방법 차이

'오픈AI와 앤스프로픽의 안전 인식, 배포 전략, 학습 방식, 안전 거버넌스를 비교한 표'다. 오픈AI는 반복적 배포와 인간 피드백을, 앤스프로픽은 안전 검증 후 신중한 배포와 헌법적 AI 방식을 취하고 있다.

자료: KB경영연구소

³ 단순히 조심하자는 구호를 넘어 엄격한 조건부 행동 지침을 의미. 모델을 학습시키고 배포하기 전에 특정 위험 역치(생물 무기 제조 지식 보유 여부 등)를 넘었는지 점검. 만약 모델이 ASL-3 수준의 위험을 보이는데 그에 맞는 보안 조치(엄격한 접근 통제 등)가 마련되지 않았다면, 학습이나 배포를 즉각 중단해야 함. 지능이 올라갈수록 모델의 가중치(Weights) 보호, 사용자의 악용 방지 필터링 등을 기계적으로 강화

⁴ 생물학적 안전 등급(BSL)에서 아이디어를 얻어 AI의 위험도를 4단계로 나눔. ASL-1과 ASL-2(현재 단계)는 일반적인 수준의 AI로 거짓 정보 생성 등 기본 위험은 있지만 국가 안보를 흔들 정도는 아님. ASL-3(경계 단계)는 고숙련 공격자가 생물학적 무기를 만들거나 사이버 공격을 수행하도록 도울 수 있는 지능 수준으로, 현재 앤스로픽은 자사 모델이 이 단계에 근접하고 있다고 판단. ASL-4(고위험 단계)는 스스로를 복제하거나 자율적으로 연구를 수행하는 등 통제가 어려운 수준의 강력한 지능 수준

[상업화와 사명의 균형점] 생존을 위한 필연적 선택 vs. 안전한 시장 표준 확립 수단

○ 오픈AI와 앤스로픽 모두 상업화를 사명 달성의 주요 수단으로 삼고 있으나 오픈AI는 AGI 개발에 필요한 자원 확보를 위해, 앤스로픽은 가치 증명에 방점을 둠

  • (오픈AI) 상업화는 ‘생존과 성장을 위한 필연적 선택’
    - AGI 개발 인프라 구축에 필요한 막대한 자본을 조달하기 위해 챗GPT의 대중화 및 유료 구독제 출시, 광고 게재 등 적극적으로 영리를 추구
  • (앤스로픽) 상업화는 ‘안전한 시장 표준 확립을 수단’
    - 안전 철학이 반영된 모델이 시장에서 성공할 수 있음을 증명함으로써 AI 경쟁이 안전을 약화시키는 방향이 아닌 안전을 강화하는 방향으로 전개되도록 유도하는 ‘상향식 경쟁(Race to the top)’을 지향
    - 실제로 앤스로픽의 ‘책임 있는 확장 정책’이 발표되고 몇 개월 후 오픈AI의 ‘준비 프레임 워크’, 구글 딥마인드의 ‘프런티어 안전 프레임워크(Frontier Safety Framework)’ ⁵ 가 잇따라 공개됨
⁵ 모델이 심각한 위험 임계값(Critical Capability Levels, CCL)에 도달하면, 위험을 줄일 수 있는 보안 및 안전 대책이 적용될 때 까지 다음 단계의 학습이나 배포가 중단되거나 제한되는 데 적용되는 방법론. 생물학적 위험, 사이버 보안, 유해한 조작, 머신러닝 연구개발(자율적 개선) 등과 같은 고위험 분야를 집중 모니터링. 2025년 9월 발표된 업데이트 버전에서 AI가 인간의 지시를 거부하거나, 인간의 가치관을 왜곡하는 조작 능력에 대한 평가 항목을 공식화

※ 본 보고서는 연구자의 개인 의견으로 KB경영연구소 공식 의견과 다를 수 있으며, 인용시 출처를 밝혀주시기 바랍니다.제약 요인으로 작용할 수 있음

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

금융용어사전

KB금융그룹의 로고입니다. KB라고 기재되어 있습니다 KB Think

이미지