멀티모달

멀티모달(Multimodal) AI는 정형화된 텍스트뿐만 아니라 이미지, 비디오, 오디오 등 다양한 형태의 서로 다른 데이터를 동시에 이해하고 통합하여 처리할 수 있는 인공지능 모델을 의미합니다.

이 문서에서는 멀티모달 AI의 주요 카테고리와 최근 모델들의 트렌드를 다룹니다.

VLM (Vision-Language Models): 시각 데이터와 텍스트를 함께 처리하고 이해하는 모델
LVM (Large Vision Models): 방대한 시각 데이터로 기반 학습되어 언어 없이도 여러 비전 태스크를 수행하는 딥러닝 모델
LMM (Large Multimodal Models): 텍스트, 시각, 오디오 및 비디오 등 모든 모달리티를 통합하여 네이티브로 처리하는 초거대 모델
LVA (Large Vision-Action Models): 시각과 언어를 이해하여 물리적인 행동(Action) 제어까지 수행하는 로보틱스 기반 통합 모델
ALM (Audio-Language Models): 음성(오디오)과 텍스트를 동시에 매끄럽게 이해하고 대화하는 모델

Table of contents