9화. OpenAI의 Whisper 사용기

[엔비디아 GTC 2023] AI, 특이점에 도달하다
시리즈 총 9화
2023.04.07

읽는시간 4

0

○ 엔비디아 GTC가 AI를 주제로 진행한 행사인 만큼, 본 연구원도 최근 이슈가 되는 OpenAI의 Whisper라는 AI Speech-To-Text 서비스와 엔비디아 GPU(CUDA) 성능을 직접 살펴봤음

 

  • Whisper는 2022년 9월 이미 오픈소스로 공개되었지만 그 당시에는 대중들의 큰 주목을 끌 지 못했었고, 올 해 3월 OpenAI가 ChatGPT의 API 버전을 공개할 때 Whisper 유료 버전⁸을 같이 소개하면서 재조명됨
    - Whisper는 크게 2가지 기능이 제공되는데,
    ①Transcriptions: 영어와 한국어를 포함한 48개국 음성을 해당 언어 텍스트로 변환 (영어 음성 → 영어 텍스트 or 한글 음성 → 한글 텍스트)
    ②Translations: 48개국의 음성을 영어 텍스트 파일로 변환 (한글 음성 → 영어 텍스트 or 프랑스어 음성 → 영어 텍스트)

    [테스트 방법]
    엔비디아 GTC 영어 세션을 음성파일로 녹음한 뒤 Whisper를 이용해 영문 텍스트로 변환⁹

    [Whisper vs CLOVA Note 성능 결과]
    Whisper는 자연스러운 글쓰기 같았던 반면 CLOVA Note는 음성을 글로 바꾼 느낌¹⁰

    [엔비디아 GPU vs CPU 성능 결과]
    Whisper 프로그램을 엔비디아 GPU(CUDA)¹¹를 사용할 때 는 처리 시간이 1분에 불과했지만 CPU의 경우는 19분이 걸림

OpenAI의 ‘Whisper’와 네이버의 ‘CLOVA Note’ 비교

'OpenAI'의 'Whisper'와 '네이버'의 'CLOVA Note'를 서로 비교해 봄.

자료: 연구자

⁸ 무료로 제공되는 버전은 Tiny, Base, Small, Medium, Large로 구분되어 있으며 유료 모델은 Large-v2라는 이름으로 이보다 좋은 성능의 모델. 유료 모델 비용은 분당 0.006달러

⁹ Whisper 무료버전은 음성파일이 25MB로 제한되어 있기 때문에 내부적으로 용량을 분할하는 프로그램 로직을 별도로 구현 

¹⁰ 샘플량이 많지 않기 때문에 연구자의 주관적인 판단임을 참고 

¹¹ 개발자들이 GPU 성능을 활용하여 연산의 병렬 처리를 효과적으로 할 수 있도록 도와주는 모델 

NVIDIA GPU vs CPU 처리 시간 비교

'NVIDIA GPU'와 'CPU'의 성능을 서로 비교해 봄.

자료: 연구자, Google colab

참고 - Whisper 구현을 위한 소스 코드

√ 단지 6라인 코딩만으로 Whisper 구현 가능

√ 모델은 ‘tiny’, ‘base’, ‘small’, ‘medium’, ‘large’ 중 하나를 선택

√ last.mp3는 사전에 만들어진 영어 음성 파일

√ 환경은 구글에서 무료로 제공하는 colab을 사용했으며 ‘런타임 유형 메뉴’를  통해 ‘GPU’와 ‘CPU’를 선택 가능

환경은 구글에서 무료로 제공하는 colab을 사용했으며 ‘런타임 유형 메뉴’를 통해 ‘GPU’와 ‘CPU’를 선택 가능

권세환

KB경영연구소

권세환
심경석

KB경영연구소

심경석
김준산

KB경영연구소

김준산
진영리

KB경영연구소

진영리

금융용어사전

KB금융그룹의 로고와 KB Think 글자가 함께 기재되어 있습니다. KB Think

이미지