한국경제

멀티모달 AI

multi modal

멀티모달 AI(Multimodal AI)는 텍스트·이미지·음성·영상 등 서로 다른 데이터 양식(modality)을 동시에 이해하고 처리하는 인공지능 기술이다. 기존 AI가 하나의 데이터 유형만 처리하는 단일모달(single-modal) 방식이었다면, 멀티모달 AI는 여러 형태의 정보를 결합해 보다 종합적인 판단과 생성 작업을 수행할 수 있다.

예를 들어 이미지로 텍스트를 검색하거나, 텍스트 설명만으로 이미지를 생성하고, 이미지와 문장을 함께 이해해 질문에 답하는 작업 등이 가능하다. 최근에는 대규모멀티모달모델(LMM)의 발전으로 음성·영상·문서·센서 데이터까지 통합 처리하는 방향으로 진화하고 있다.

멀티모달 AI는 인간의 자연스러운 의사소통 방식을 모방한 기술로 평가된다. 사람은 사물을 인식할 때 글·소리·표정·맥락을 동시에 이해하는데, 멀티모달 AI 역시 다양한 정보를 결합해 의미를 추론한다. 이를 통해 검색, 자율주행, 의료영상 분석, AI 비서, 로보틱스 등에서 더 높은 정확도와 직관적인 사용자 경험을 제공할 수 있다.

연관용어

대규모 멀티모달모델 제로샷 러닝