(서울=연합인포맥스) 윤영숙 기자 = 카카오[035720]가 한국어·한국 문화 이해에 최적화된 통합 멀티모달 AI 기술의 성과를 공개했다.
카카오는 12일 테크블로그를 통해 텍스트·음성·이미지 입력을 동시에 처리하는 언어모델 '카나나-오(Kanana-o)'와 이미지 기반 검색 핵심 모델 '카나나-브이-임베딩(Kanana-v-embedding)'의 성능을 발표했다.
'카나나-오'는 텍스트와 음성, 이미지를 동시에 이해하고 실시간으로 답변하는 통합 멀티모달 언어모델이다.
카나나-o는 텍스트 중심으로 강점을 보이던 기존 모델들이 음성 대화 시 추론력이 약해지는 한계를 개선한 것이 특징이다. 카카오는 지시이행 능력을 높여 사용자의 숨은 의도까지 파악하도록 고도화했으며, 자체 구축 데이터셋을 기반으로 요약·감정·의도 분석·오류 수정·번역 등 다양한 과업 수행 능력도 강화했다.
또한 고품질 음성 데이터와 DPO(직접 선호 최적화) 기술을 적용해 억양·감정·어조를 정교하게 학습시켜 기쁨·슬픔·분노·공포 등 상황별 감정 표현을 크게 개선했다. 팟캐스트형 멀티턴 대화 데이터셋을 활용해 자연스러운 연속 대화 능력도 확보했으며, 한국어 음성 인식·감정 인식 성능은 글로벌 모델 대비 우위로 평가됐다.
함께 공개된 카나나-브이-임베딩은 텍스트와 이미지를 동시에 처리하는 한국형 멀티모달 임베딩 모델로, 경복궁·붕어빵 같은 고유명사뿐 아니라 오타가 포함된 단어도 정확히 해석한다. 복합 조건 이미지 검색 정확도도 높아 광고 소재 유사도 분석 등 카카오 내부 서비스에 적용되고 있다.
카카오는 온디바이스 환경에서 구동 가능한 경량 멀티모달 모델 연구도 진행 중이며, MoE(Mixture of Experts) 구조를 적용한 고성능 차기 모델 '카나나-2(Kanana-2)'를 연내 개발할 계획이다.
김병학 카카오 카나나 성과리더는 카카오의 자체 AI 모델 카나나는 "사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있도록 한국적 맥락의 이해와 표현력을 높여가고자 한다"며 "실제 서비스 환경을 통해 사용자들의 일상 속 AI 기술 경험을 만들어 나가고, 사람처럼 상호작용 할 수 있는 AI의 구현에 주력해 갈 것"이라고 말했다.
[출처: 카카오]
[출처: 카카오]
ysyoon@yna.co.kr
윤영숙
ysyoon@yna.co.kr
함께 보면 도움이 되는
뉴스를 추천해요
금융용어사전
금융용어사전