1화. 챗(Chat)GPT 등장, 그리고 거대언어모델의 진화

챗GPT 등장이 앞당긴 AI 패러다임 변화
시리즈 총 5화
2023.06.16

읽는시간 4

0

○ 챗GPT의 뛰어난 성능은 생성형 AI¹, 특히 거대언어모델에 대한 관심과 호기심을 촉발

 

  • AI 언어모델의 기본 구조는 단어 사이 연관성을 파악하여 언어의 맥락을 유추하는 것
    - 예를 들면 “맛있는”이라는 단어 뒤에는 “사과”, “바나나” 등의 단어가 올 확률이 상대적으로 높기 때문에 이러한 단어 사이에 높은 연관성이 부여

    - 문장은 단어와 다른 단어를 어떤 순서로 나열했는가에 따라 의미가 달라지는데, 기존 언어모델은 문장을 한 단어씩 순서대로 읽기 때문에 긴 문장을 처리하는 데 속도가 매우 느렸고, 단어 사이 관계를 기억하는 데 한계가 존재

 

  • 정체기에 접어들었던 언어모델 분야는 2017년 구글이 ‘트랜스포머(Transformer)’라는 딥러닝 모델을 오픈소스로 공개하면서 또 한 번의 기술적 진보를 이룸²
    - 트랜스포머 모델은 입력된 문장 내 단어의 순서를 코드화하고, 각 단어를 중요도에 따라 가중치를 부여하는 방식으로 기존 알고리즘(순환신경망(RNN)이나 콘볼루션신경망(CNN))³ 보다 정확도를 획기적으로 향상시킨 것

    - 아울러 모델의 학습 시간을 단축시킬 수 있는 병렬 처리가 가능해지면서 자연어 처리 뿐만 아니라 이미지 인식 및 분류, 번역 등에 보다 널리 활용되기 시작

    - 최근 화제가 된 오픈AI(Open AI)의 GPT(Generative Pre-trained Transformer), 구글의 PaLM(Pathways Language Model, 팜)도 트랜스포머 모델에 기반한 거대언어모델(LLM, Large Language Model)

 

  • 거대언어모델은 매개변수(파라미터) 개수가 성능에 큰 영향을 미치는 것으로 알려지면서, 2021년을 기점으로 수천억 개의 매개변수가 사용된 모델들이 줄지어 등장
    - 신경망 언어모델의 확장에 관한 연구⁴에 따르면 매개변수 개수, 데이터셋의 크기, 학습에 필요한 연산량이 클수록 성능이 뛰어남

    - 오픈AI의 GPT-3.5는 1,750억 개⁵ , 구글의 PaLM은 5,400억 개의 매개변수가 사용되었으며⁶, 최근에는 1조 개가 넘어가는 초거대언어모델도 등장. 다만 매개변수 개수가 증가할수록 투입되어야 하는 자원과 비용도 천문학적으로 늘어난다는 점에서 ‘모델의 크기가 크다고 더 좋은 것만은 아니다’는 의견도 존재⁷

 ¹ Generative AI, 이용자의 특정한 요구에 따라 결과를 능동적으로 생성해내는 인공지능으로, 입력된 훈련 데이터의 패턴과 구조를 학습한 후 유사한 특성을 가진 새로운 데이터를 생성하는 기능을 수행하는 AI를 의미

 ² Ashish Vaswani et al., “Attention is all you need,” Cornell University, June 12, 2017.; https://arxiv.org/abs/1706.03762

 ³ 순환신경망(RNN, Recurrent Neural Network)은 순차적인 데이터나 시계열 데이터를 이용하는 인공지능 알고리즘으로, 유닛 간 연결이 순환적인 구조라는 점을 특징으로 함. 콘볼루션신경망(CNN, Convolutional Neural Network)은 이미지에서 필요한 특징을 스스로 학습할 수 있는 능력을 갖춘 인공지능 알고리즘의 하나로, 합성곱신경망이라고도 불림

 ⁴ Jared Kaplan et al., "Scaling Laws for Neural Language Models," Cornell University, January 23, 2020.; https://arxiv.org/abs/2001.08361

 ⁵ GPT-3에서 이미 매개변수 1,750억 개를 사용했고, GPT-3.5는 GPT-3과 매개변수는 동일하지만 부족한 점을 개선한 버전. 참고로 지난 3월 14일 출시한 GPT-4의 경우에는 매개변수 개수를 공개하지 않았음

 ⁶ 지난 5월 10일 구글이 공개한 ‘바드(Bard)’의 경우 PaLM2를 기반으로 하며, 공식적으로 밝혀지지는 않았으나 기존 PaLM에 비해 학습 데이터는 3조 6,000억 개로 5배 늘어난 반면, 매개변수 개수는 3,400억 개로 줄어든 것으로 알려짐(CNBC, 2023년 5월 16일)

 ⁷ 구글 딥마인드 부사장 주빈 가라마니(Zoubin Ghahramani) 언론 브리핑(구글 연례개발자회의, 2023년 5월 10일)

언어모델별 파라미터 수

거대언어모델은 '매개변수' 개수가 성능에 큰 영향을 미치는 것으로 알려지면서, 2021년을 기점으로 수천억 개의 매개변수가 사용된 모델들이 줄지어 등장.

자료: 자비에 아마트리아인(Xavier Amatriain), Amatriain.net

[개념정리] 매개변수(파라미터)가 무엇인가요?

AI를 간단하게 설명하면 학습이라는 단계를 통해 데이터 내에 존재하는 일종의 패턴을 찾고, 이후 새로운  값이 입력될 때 그 패턴에 해당하는 결과값을 출력하는 서비스로 이해할 수 있음. 이 패턴을 얼마나 정교하게 만드느냐가 AI 성능을 결정하므로 이 과정이 매우 중요.

 

패턴을  간단한 수식으로 표현하면, 𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑛 𝑥𝑛  라는 함수 형태로 나타낼 수 있는데, 이 함수는 입력값 x에 β라는 임의의 수를 곱한 값들을 더해줌으로써 출력값 y가 나오는 구조. 여기서 β를 매개변수라고 하며, β의 개수가 많을수록 더 정교한 패턴을 표현 가능

B모델이 A모델보다 데이터를 보다 잘 설명

'AI'를  간단하게  설명하면  학습이라는  단계를  통해  데이터  내에  존재하는  일종의  패턴을  찾고,  이후 새로운  값이  입력될  때  그  패턴에  해당하는   결과값을  출력하는  서비스로  이해할  수  있음.  이  패턴 을  얼마나  정교하게  만드느냐가  AI  성능을  결정하므로  이  과정이  매우  중요.

A는 매개변수가 2개(β₀, β₁), B는 매개변수가 3개 (β₀, β₁, β₂)

김진욱

KB경영연구소

김진욱
권세환

KB경영연구소

권세환

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

이미지