4화. 데이터와 머신러닝의 최대 화두

[AWS reInvent 2022] 클라우드의 혁신 그리고 진화
시리즈 총 6화
2023.01.05

읽는시간 4

0

○ 기업들의 디지털 전환으로 데이터가 폭발적으로 증가함에 따라 글로벌 선도기업들은 조직 내 데이터 활용을 극대화하고 차별화된 머신러닝 기술로 고객 경험을 향상시키고자 기존의 한계들을 돌파할 수 있는 방안들을 적극적으로 모색하고 도입하는 모습

 

  • 데이터와 머신러닝 관련 선도기업들의 최대 관심사는 ① 빠르고 쉬운 데이터 분석과 머신러닝 활용 환경 마련 ② 조직 내 머신러닝 모델 확장 및 내재화 ③ 차별화된 데이터 및 머신러닝 기술을 신규 수익원으로 활용하는 것

[빠르고 쉬운 활용] 많은 기업들이 데이터 및 머신러닝 활용 환경 마련의 어려움, 대용량 데이터 핸들링에 걸리는 시간 등에 따라 기획 후 개발까지 상당한 시간이 소요되는 어려움을 경험

 

  • 영국의 대형 은행 중 한 곳인 낫웨스트(NatWest)은행(舊 로열뱅크오브스코틀랜드, RBS)은 아마존 세이지메이커(SageMaker)⁶ 환경을 도입하여 데이터 인프라와 머신러닝 모델 구축 및 관리 프로세스를 표준화하고 머신러닝 배포(deploy)까지 소요 시간을 단축

    - 낫웨스트는 직원별 데이터 및 머신러닝 활용 환경 구축에 시간이 낭비되고 데이터 사일로(silo)⁷에 의한 데이터 접근성 문제로 인해 실제 앱/서비스 개발까지 상당 시간이 소요되는 점을 해결하고자 아마존 세이지메이커를 도입

    - 세이지메이커를 활용한 데이터 및 머신러닝 활용을 조직 전반에 활성화시키기 위해 데이터 분석가들과 엔지니어들을 교육시킨 후 이들을 각 사업부의 팀마다 배치시킴

    - 데이터 및 머신러닝 활용 환경 구축이 쉽고 빨라지면서 다양한 부서 직원들의 노하우및 활용 결과가 쌓였고, 이는 또 다른 데이터 자산이 됨

    - 그 결과, 기획부터 개발까지 소요 기간을 기존 12개월에서 3개월로 단축시켰으며 기존 6개월 정도 소요되던 머신러닝 구축 및 배포를 2주로 줄임
 
  • 투자리서치 회사인 모닝스타(Morningstar)는 AWS 아테나(Athena)⁸를 통한 데이터 집중화로 데이터 사일로를 극복하고 방대한 데이터를 빠르고 쉽게 서로 결합하고 분석, 테스트할 수 있는 환경을 마련

    - 모닝스타는 주식, 펀드 등 투자 상품에 대해 AI 기반 평가 등급을 제공하는 글로벌 투자리서치 회사로 방대한 양의 데이터⁹를 다루고 생산

    - 모닝스타는 기존 HITL(Human-in-the-Loop)¹⁰ AI로 제공하던 등급 정보의 투명성을 높이기 위해 내부 텍스트 데이터를 활용하고자 했으나 데이터 접근성 문제, 표준화되지 않은 데이터, 대용량의 텍스트 데이터 처리를 위한 인프라 부족의 문제에 봉착

    - 모닝스타는 AWS 아테나를 도입, 2.5페타바이트¹¹ 규모의 데이터, 40,000개 이상의 테이블을 아테나로 집중시킴으로써 데이터를 표준화시키고 접근성을 강화했으며, 내외부 데이터간 결합 및 분석이 쉽고 빨라지면서 짧은 시간 내 다각도의 분석이 가능해졌음

    - 그 결과, 투자 상품에 대한 등급 평가를 고도화할 수 있었으며 더 나아가 리서치 보고서 작성을 자동화하여 월 150,000개의 펀드 클래스를 검토할 수 있게 됨 (애널리스트를 이용한 기존 방식은 연 40,000개의 펀드 클래스정도 검토 가능)

⁶ 데이터 과학자 및 개발자가 모든 규모의 기계 학습 모델을 간편하게 구축, 학습 및 배포할 수 있도록 하는 완전 관리형 서비스

⁷ 기업이 부서 또는 프로젝트별로 인프라를 따로 구축해 데이터를 보관할 경우 발생하는 데이터 불일치 현상

⁸ 오픈소스 프레임워크에 구축된 서버리스 대화형 분석 서비스. 페타바이트 규모의 데이터를 상주 위치에서 분석하는 간소화되고 유연한 방식을 제공

⁹ 트위터가 1년에 생산하는 규모의 데이터를 모닝스타는 1주일에 생산

¹⁰ AI 학습과정에 사람이 개입, 데이터의 특징(features)들을 쉽게 학습할 수 있도록 안내하여 정확한 결과물을 얻을 수 있도록 하는 AI개발 방법 중의 하나

¹¹ 1015를 의미하는 SI 접두어인 페타와 컴퓨터 데이터의 표시단위인 바이트가 합쳐진 자료량을 의미하는 단위, 1 PB = 1015 bytes = 1,000,000,000,000,000 bytes

[내재화] 선도기업들은 모델을 더 빠르게 정교화하고 확장하여 머신러닝의 효율성과 생산성을 높임으로써 조직 내 내재화할 수 있는 방안을 고민

 

  • 글로벌 대형 헤지펀드인 브릿지워터(Bridgewater)는 세계 경제 분석 및 예측을 위해 다양한 미니 모델(mini-model)들을 구축하여 운영 중에 있으며, AWS 프레스토(Presto)¹²를 도입하여 조직 내 효과적으로 모델을 확장할 수 있었음

    - 브릿지워터는 금리, 물가, 환율 등 전 세계 다양한 거시 경제 지표들의 동향을 분석하고 예측해야 하고 지표별로 그 근거를 설명할 수 있도록 모델을 수행하여야 하기 때문에 지표별 다양한 미니모델이 돌아가고, 모델별 변수들의 시계열 자료 적재 필요

    - 하지만, 하나의 경제 지표라고 해도 이에 영향을 주는 요소가 다양하며 국가별 해당 지표를 전부 가져올 수 있어야 하기 때문에 미니모델이라고 하더라도 다루는 데이터의 양과 적재되는 시계열 자료가 방대함

    - 예를 들어 소비자물가지수(CPI)의 경우 근원소비자물가지수(Core CPI)와 에너지·식품포함소비자물가지수(Non Core CPI)로 나뉘며 전자는 상품 및 서비스 가격, 후자는 에너지와 식품 가격이 변수로 작용

    - 전 세계 소비자물가지수 추이를 알고 싶다면 미국, 한국, 중국 등 국가별 해당 변수들을 활용하여 미니모델을 돌려야 하며 애널리스트들이 소비자물가지수의 변화 요인을 분석할 수 있도록 그 변수들의 시계열 자료 역시 적재해야 한다는 것

    - 브릿지워터 내 미니모델들이 확장되고 사용하는 변수들이 추가되며 모델이 정교화됨에 따라 적재해야 하는 데이터가 방대해지고 모델들의 실행 시간들이 지연되면서 기존 인프라의 한계에 봉착

    - 브릿지워터는 AWS 프레스토를 도입하여 자주 사용되는 미니모델들의 고정 변수 데이터를 사전에 저장해 놓고 모델 실행 시 바로 불러올 수 있도록 하여 데이터가 추가되거나 동일 모델 반복 실행 시에도 추가 데이터가 적재되지 않도록 조치

    - 이를 통해 브릿지워터는 모델 실행 시간을 절반으로 줄였으며, 머신러닝 활용도가 75% 증가하였고 그 결과 동일한 기간 내 처리 가능한 과제 규모는 5배로 늘어났으며 조직 내 모델 확대 및 기존 미니모델 정교화가 활성화될 수 있었음

브릿지워터(Bridgewater)의 프레스토 활용 사례

브릿지워터와 프레스토 활용 사례를 보여주는 이미지이다.

자료: AWS, 연구자

  • AT&T의 자회사인 AT&T 사이버시큐리티(Cybersecurity)는 사이버 위험 관리 서비스 내 모델들을 아마존 세이지메이커를 활용하여 자동화함으로써 실시간으로 모델을 업데이트하고 자동으로 신규 모델을 생성하는 프로세스를 통해 모델들이 내재화 될 수 있도록 함

    - 머신러닝 모델을 개발하고 실제 운영에 도입하는데까지 데이터 수집, 전처리¹³, 모델 학습 및 평가 등 많은 과정을 거쳐야 하고 머신러닝을 적용할 때마다 이러한 과정을 되풀이해야 함

    - 아마존 세이지메이커의 AutoML¹⁴ 서비스는 이러한 반복적인 작업을 자동화하여 생산성과 효율성을 높여주고 머신러닝 모델을 자동으로 생성하고 관리함으로써 AT&T 사이버시큐리티 내 내재화 될 수 있도록 지원

¹² 짧은 지연 시간으로 임시 데이터 분석에 최적화된 오픈 소스 분산 SQL 쿼리 엔진

¹³ 데이터의 결측치 및 이상치를 확인하거나 제거하고 불일치되는 부분을 일관성 있는 데이터의 형태로 전환하는 과정

¹⁴ 모델을 선정하고 학습하는데 소모적인 부분과 반복적인 기계학습 모델 개발 단계를 자동화하는 프로세스

[新수익원] 선도기업들은 빠르고 쉬운 데이터 및 머신러닝의 활용 및 확장, 그리고 조직 내 내재화를 통해 궁극적으로 자신들의 자체적이고 독자적인 서비스 또는 솔루션을 구축하고 판매함으로써 신규 수익원으로 활용하는 것이 목표

 

  • 골드만삭스는 2021년 AWS와 협업을 통해 금융 기관을 위한 클라우드 기반 데이터 및 분석 솔루션 제품군인 '골드만삭스 파이낸셜 클라우드 포 데이터(Goldman Sachs Financial Cloud for Data)'를 출시함
 
  • 골드만삭스가 보유한 독점 데이터(proprietary data)와 서드 파티(third party) 데이터를 고객이 보유한 데이터와 결합하여 활용할 수 있으며, 골드만삭스의 시계열 분석 도구인 플롯툴 프로(PlotTool Pro) 와 파이썬(Python) 툴키트 등 분석 도구를 제공
 
  • 또한, 골드만삭스가 수십년 간 축적해온 경험을 바탕으로 데이터 관리와 분석 문제를 해결할 수 있도록 내부 데이터와 머신러닝 노하우를 외부로 판매함으로써 신규 수익원으로 활용
권세환

KB경영연구소

권세환
심경석

KB경영연구소

심경석
이신애

KB경영연구소

이신애

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

이미지