4화. 데이터와 머신러닝의 최대 화두

[AWS reInvent 2022] 클라우드의 혁신 그리고 진화
23.01.05
읽는시간 0

작게

보통

크게

0

○ 기업들의 디지털 전환으로 데이터가 폭발적으로 증가함에 따라 글로벌 선도기업들은 조직 내 데이터 활용을 극대화하고 차별화된 머신러닝 기술로 고객 경험을 향상시키고자 기존의 한계들을 돌파할 수 있는 방안들을 적극적으로 모색하고 도입하는 모습

 

  • 데이터와 머신러닝 관련 선도기업들의 최대 관심사는 ① 빠르고 쉬운 데이터 분석과 머신러닝 활용 환경 마련 ② 조직 내 머신러닝 모델 확장 및 내재화 ③ 차별화된 데이터 및 머신러닝 기술을 신규 수익원으로 활용하는 것

[빠르고 쉬운 활용] 많은 기업들이 데이터 및 머신러닝 활용 환경 마련의 어려움, 대용량 데이터 핸들링에 걸리는 시간 등에 따라 기획 후 개발까지 상당한 시간이 소요되는 어려움을 경험

 

  • 영국의 대형 은행 중 한 곳인 낫웨스트(NatWest)은행(舊 로열뱅크오브스코틀랜드, RBS)은 아마존 세이지메이커(SageMaker)⁶ 환경을 도입하여 데이터 인프라와 머신러닝 모델 구축 및 관리 프로세스를 표준화하고 머신러닝 배포(deploy)까지 소요 시간을 단축

    - 낫웨스트는 직원별 데이터 및 머신러닝 활용 환경 구축에 시간이 낭비되고 데이터 사일로(silo)⁷에 의한 데이터 접근성 문제로 인해 실제 앱/서비스 개발까지 상당 시간이 소요되는 점을 해결하고자 아마존 세이지메이커를 도입

    - 세이지메이커를 활용한 데이터 및 머신러닝 활용을 조직 전반에 활성화시키기 위해 데이터 분석가들과 엔지니어들을 교육시킨 후 이들을 각 사업부의 팀마다 배치시킴

    - 데이터 및 머신러닝 활용 환경 구축이 쉽고 빨라지면서 다양한 부서 직원들의 노하우및 활용 결과가 쌓였고, 이는 또 다른 데이터 자산이 됨

    - 그 결과, 기획부터 개발까지 소요 기간을 기존 12개월에서 3개월로 단축시켰으며 기존 6개월 정도 소요되던 머신러닝 구축 및 배포를 2주로 줄임
 
  • 투자리서치 회사인 모닝스타(Morningstar)는 AWS 아테나(Athena)⁸를 통한 데이터 집중화로 데이터 사일로를 극복하고 방대한 데이터를 빠르고 쉽게 서로 결합하고 분석, 테스트할 수 있는 환경을 마련

    - 모닝스타는 주식, 펀드 등 투자 상품에 대해 AI 기반 평가 등급을 제공하는 글로벌 투자리서치 회사로 방대한 양의 데이터⁹를 다루고 생산

    - 모닝스타는 기존 HITL(Human-in-the-Loop)¹⁰ AI로 제공하던 등급 정보의 투명성을 높이기 위해 내부 텍스트 데이터를 활용하고자 했으나 데이터 접근성 문제, 표준화되지 않은 데이터, 대용량의 텍스트 데이터 처리를 위한 인프라 부족의 문제에 봉착

    - 모닝스타는 AWS 아테나를 도입, 2.5페타바이트¹¹ 규모의 데이터, 40,000개 이상의 테이블을 아테나로 집중시킴으로써 데이터를 표준화시키고 접근성을 강화했으며, 내외부 데이터간 결합 및 분석이 쉽고 빨라지면서 짧은 시간 내 다각도의 분석이 가능해졌음

    - 그 결과, 투자 상품에 대한 등급 평가를 고도화할 수 있었으며 더 나아가 리서치 보고서 작성을 자동화하여 월 150,000개의 펀드 클래스를 검토할 수 있게 됨 (애널리스트를 이용한 기존 방식은 연 40,000개의 펀드 클래스정도 검토 가능)

⁶ 데이터 과학자 및 개발자가 모든 규모의 기계 학습 모델을 간편하게 구축, 학습 및 배포할 수 있도록 하는 완전 관리형 서비스

⁷ 기업이 부서 또는 프로젝트별로 인프라를 따로 구축해 데이터를 보관할 경우 발생하는 데이터 불일치 현상

⁸ 오픈소스 프레임워크에 구축된 서버리스 대화형 분석 서비스. 페타바이트 규모의 데이터를 상주 위치에서 분석하는 간소화되고 유연한 방식을 제공

⁹ 트위터가 1년에 생산하는 규모의 데이터를 모닝스타는 1주일에 생산

¹⁰ AI 학습과정에 사람이 개입, 데이터의 특징(features)들을 쉽게 학습할 수 있도록 안내하여 정확한 결과물을 얻을 수 있도록 하는 AI개발 방법 중의 하나

¹¹ 1015를 의미하는 SI 접두어인 페타와 컴퓨터 데이터의 표시단위인 바이트가 합쳐진 자료량을 의미하는 단위, 1 PB = 1015 bytes = 1,000,000,000,000,000 bytes

[내재화] 선도기업들은 모델을 더 빠르게 정교화하고 확장하여 머신러닝의 효율성과 생산성을 높임으로써 조직 내 내재화할 수 있는 방안을 고민

 

  • 글로벌 대형 헤지펀드인 브릿지워터(Bridgewater)는 세계 경제 분석 및 예측을 위해 다양한 미니 모델(mini-model)들을 구축하여 운영 중에 있으며, AWS 프레스토(Presto)¹²를 도입하여 조직 내 효과적으로 모델을 확장할 수 있었음

    - 브릿지워터는 금리, 물가, 환율 등 전 세계 다양한 거시 경제 지표들의 동향을 분석하고 예측해야 하고 지표별로 그 근거를 설명할 수 있도록 모델을 수행하여야 하기 때문에 지표별 다양한 미니모델이 돌아가고, 모델별 변수들의 시계열 자료 적재 필요

    - 하지만, 하나의 경제 지표라고 해도 이에 영향을 주는 요소가 다양하며 국가별 해당 지표를 전부 가져올 수 있어야 하기 때문에 미니모델이라고 하더라도 다루는 데이터의 양과 적재되는 시계열 자료가 방대함

    - 예를 들어 소비자물가지수(CPI)의 경우 근원소비자물가지수(Core CPI)와 에너지·식품포함소비자물가지수(Non Core CPI)로 나뉘며 전자는 상품 및 서비스 가격, 후자는 에너지와 식품 가격이 변수로 작용

    - 전 세계 소비자물가지수 추이를 알고 싶다면 미국, 한국, 중국 등 국가별 해당 변수들을 활용하여 미니모델을 돌려야 하며 애널리스트들이 소비자물가지수의 변화 요인을 분석할 수 있도록 그 변수들의 시계열 자료 역시 적재해야 한다는 것

    - 브릿지워터 내 미니모델들이 확장되고 사용하는 변수들이 추가되며 모델이 정교화됨에 따라 적재해야 하는 데이터가 방대해지고 모델들의 실행 시간들이 지연되면서 기존 인프라의 한계에 봉착

    - 브릿지워터는 AWS 프레스토를 도입하여 자주 사용되는 미니모델들의 고정 변수 데이터를 사전에 저장해 놓고 모델 실행 시 바로 불러올 수 있도록 하여 데이터가 추가되거나 동일 모델 반복 실행 시에도 추가 데이터가 적재되지 않도록 조치

    - 이를 통해 브릿지워터는 모델 실행 시간을 절반으로 줄였으며, 머신러닝 활용도가 75% 증가하였고 그 결과 동일한 기간 내 처리 가능한 과제 규모는 5배로 늘어났으며 조직 내 모델 확대 및 기존 미니모델 정교화가 활성화될 수 있었음

브릿지워터(Bridgewater)의 프레스토 활용 사례

브릿지워터와 프레스토 활용 사례를 보여주는 이미지이다.

자료: AWS, 연구자

  • AT&T의 자회사인 AT&T 사이버시큐리티(Cybersecurity)는 사이버 위험 관리 서비스 내 모델들을 아마존 세이지메이커를 활용하여 자동화함으로써 실시간으로 모델을 업데이트하고 자동으로 신규 모델을 생성하는 프로세스를 통해 모델들이 내재화 될 수 있도록 함

    - 머신러닝 모델을 개발하고 실제 운영에 도입하는데까지 데이터 수집, 전처리¹³, 모델 학습 및 평가 등 많은 과정을 거쳐야 하고 머신러닝을 적용할 때마다 이러한 과정을 되풀이해야 함

    - 아마존 세이지메이커의 AutoML¹⁴ 서비스는 이러한 반복적인 작업을 자동화하여 생산성과 효율성을 높여주고 머신러닝 모델을 자동으로 생성하고 관리함으로써 AT&T 사이버시큐리티 내 내재화 될 수 있도록 지원

¹² 짧은 지연 시간으로 임시 데이터 분석에 최적화된 오픈 소스 분산 SQL 쿼리 엔진

¹³ 데이터의 결측치 및 이상치를 확인하거나 제거하고 불일치되는 부분을 일관성 있는 데이터의 형태로 전환하는 과정

¹⁴ 모델을 선정하고 학습하는데 소모적인 부분과 반복적인 기계학습 모델 개발 단계를 자동화하는 프로세스

[新수익원] 선도기업들은 빠르고 쉬운 데이터 및 머신러닝의 활용 및 확장, 그리고 조직 내 내재화를 통해 궁극적으로 자신들의 자체적이고 독자적인 서비스 또는 솔루션을 구축하고 판매함으로써 신규 수익원으로 활용하는 것이 목표

 

  • 골드만삭스는 2021년 AWS와 협업을 통해 금융 기관을 위한 클라우드 기반 데이터 및 분석 솔루션 제품군인 '골드만삭스 파이낸셜 클라우드 포 데이터(Goldman Sachs Financial Cloud for Data)'를 출시함
 
  • 골드만삭스가 보유한 독점 데이터(proprietary data)와 서드 파티(third party) 데이터를 고객이 보유한 데이터와 결합하여 활용할 수 있으며, 골드만삭스의 시계열 분석 도구인 플롯툴 프로(PlotTool Pro) 와 파이썬(Python) 툴키트 등 분석 도구를 제공
 
  • 또한, 골드만삭스가 수십년 간 축적해온 경험을 바탕으로 데이터 관리와 분석 문제를 해결할 수 있도록 내부 데이터와 머신러닝 노하우를 외부로 판매함으로써 신규 수익원으로 활용

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

금융용어사전

KB금융그룹의 로고입니다. KB라고 기재되어 있습니다 KB Think

이미지