9화. OpenAI의 Whisper 사용기 | KB의 생각

홈 투자 경제 흐름 심층 분석

[엔비디아 GTC 2023] AI, 특이점에 도달하다

23.04.07

읽는시간 0분

0

○ 엔비디아 GTC가 AI를 주제로 진행한 행사인 만큼, 본 연구원도 최근 이슈가 되는 OpenAI의 Whisper라는 AI Speech-To-Text 서비스와 엔비디아 GPU(CUDA) 성능을 직접 살펴봤음

Whisper는 2022년 9월 이미 오픈소스로 공개되었지만 그 당시에는 대중들의 큰 주목을 끌 지 못했었고, 올 해 3월 OpenAI가 ChatGPT의 API 버전을 공개할 때 Whisper 유료 버전⁸을 같이 소개하면서 재조명됨
- Whisper는 크게 2가지 기능이 제공되는데,
①Transcriptions: 영어와 한국어를 포함한 48개국 음성을 해당 언어 텍스트로 변환 (영어 음성 → 영어 텍스트 or 한글 음성 → 한글 텍스트)
②Translations: 48개국의 음성을 영어 텍스트 파일로 변환 (한글 음성 → 영어 텍스트 or 프랑스어 음성 → 영어 텍스트)

[테스트 방법] 엔비디아 GTC 영어 세션을 음성파일로 녹음한 뒤 Whisper를 이용해 영문 텍스트로 변환⁹

[Whisper vs CLOVA Note 성능 결과] Whisper는 자연스러운 글쓰기 같았던 반면 CLOVA Note는 음성을 글로 바꾼 느낌¹⁰

[엔비디아 GPU vs CPU 성능 결과] Whisper 프로그램을 엔비디아 GPU(CUDA)¹¹를 사용할 때 는 처리 시간이 1분에 불과했지만 CPU의 경우는 19분이 걸림

OpenAI의 ‘Whisper’와 네이버의 ‘CLOVA Note’ 비교

'OpenAI'의 'Whisper'와 '네이버'의 'CLOVA Note'를 서로 비교해 봄.

자료: 연구자

⁸ 무료로 제공되는 버전은 Tiny, Base, Small, Medium, Large로 구분되어 있으며 유료 모델은 Large-v2라는 이름으로 이보다 좋은 성능의 모델. 유료 모델 비용은 분당 0.006달러

⁹ Whisper 무료버전은 음성파일이 25MB로 제한되어 있기 때문에 내부적으로 용량을 분할하는 프로그램 로직을 별도로 구현

¹⁰ 샘플량이 많지 않기 때문에 연구자의 주관적인 판단임을 참고

¹¹ 개발자들이 GPU 성능을 활용하여 연산의 병렬 처리를 효과적으로 할 수 있도록 도와주는 모델

NVIDIA GPU vs CPU 처리 시간 비교

'NVIDIA GPU'와 'CPU'의 성능을 서로 비교해 봄.

자료: 연구자, Google colab

참고 - Whisper 구현을 위한 소스 코드

√ 단지 6라인 코딩만으로 Whisper 구현 가능

√ 모델은 ‘tiny’, ‘base’, ‘small’, ‘medium’, ‘large’ 중 하나를 선택

√ last.mp3는 사전에 만들어진 영어 음성 파일

√ 환경은 구글에서 무료로 제공하는 colab을 사용했으며 ‘런타임 유형 메뉴’를 통해 ‘GPU’와 ‘CPU’를 선택 가능

환경은 구글에서 무료로 제공하는 colab을 사용했으며 ‘런타임 유형 메뉴’를 통해 ‘GPU’와 ‘CPU’를 선택 가능

#GPU #OpenAI #GTC #코드 #엔비디아

더 많은 콘텐츠가 궁금하신가요? KB경영연구소 홈페이지에서 콘텐츠 더 보기

권세환 투자 전문가

KB경영연구소

심경석 투자 전문가

KB경영연구소

김준산 투자 전문가

KB경영연구소

진영리 투자 전문가

KB경영연구소

총 9화

[엔비디아 GTC 2023] AI, 특이점에 도달하다

9화. OpenAI의 Whisper 사용기

8화. 인공지능, 차세대 6G 네트워킹의 핵심요소

가장 최신 시리즈예요

더 알고 싶을
내용을 추천해요

금융용어사전

KB Think

금융용어사전

KB Think