○ 엔비디아 GTC가 AI를 주제로 진행한 행사인 만큼, 본 연구원도 최근 이슈가 되는 OpenAI의 Whisper라는 AI Speech-To-Text 서비스와 엔비디아 GPU(CUDA) 성능을 직접 살펴봤음
- Whisper는 2022년 9월 이미 오픈소스로 공개되었지만 그 당시에는 대중들의 큰 주목을 끌 지 못했었고, 올 해 3월 OpenAI가 ChatGPT의 API 버전을 공개할 때 Whisper 유료 버전⁸을 같이 소개하면서 재조명됨
- Whisper는 크게 2가지 기능이 제공되는데,
①Transcriptions: 영어와 한국어를 포함한 48개국 음성을 해당 언어 텍스트로 변환 (영어 음성 → 영어 텍스트 or 한글 음성 → 한글 텍스트)
②Translations: 48개국의 음성을 영어 텍스트 파일로 변환 (한글 음성 → 영어 텍스트 or 프랑스어 음성 → 영어 텍스트)
[테스트 방법] 엔비디아 GTC 영어 세션을 음성파일로 녹음한 뒤 Whisper를 이용해 영문 텍스트로 변환⁹
[Whisper vs CLOVA Note 성능 결과] Whisper는 자연스러운 글쓰기 같았던 반면 CLOVA Note는 음성을 글로 바꾼 느낌¹⁰
[엔비디아 GPU vs CPU 성능 결과] Whisper 프로그램을 엔비디아 GPU(CUDA)¹¹를 사용할 때 는 처리 시간이 1분에 불과했지만 CPU의 경우는 19분이 걸림