LMM (Large Multimodal Models)
LMM(Large Multimodal Models)은 텍스트, 이미지 수준을 넘어 비디오, 오디오(음성), 코드 등 훨씬 광범위한 모달리티를 동시에 네이티브(Native)하게 처리할 수 있는 초거대 모델입니다.
특징 및 발전 방향
- 네이티브 멀티모달리티 (Native Multimodality): 모달리티별 모델을 따로 결합하는 방식에서 벗어나, 학습 초기 단계부터 모든 종류의 데이터를 한꺼번에 받아들이고 그 상관관계를 이해하도록 설계된 통합 모델 구조를 가집니다. (예: GPT-4o)
- 확장된 문맥 창 (Long Context Window): 수만 토큰을 넘어 수백만 토큰(Gemini 1.5는 최대 2M 토큰 이상)을 한 번에 처리해, 몇 시간 분량의 비디오나 오디오, 방대한 문서를 한 번의 작업에 소화할 수 있습니다.
- 심화된 논리 추론 모델 (Reasoning): OpenAI의 o1, o3 시리즈나 DeepSeek-R1처럼 시각이나 기타 정보를 종합하여 CoT(Chain-of-Thought) 방식으로 깊이 사고하고 수학적, 프로그래밍적 난제를 해결하는 능력을 갖춘 모델들이 등장하고 있습니다.
- 실시간 상호작용성: 사용자의 음성, 시선, 화면 상태 등을 지연 딜레이 없이 실시간으로 파악해 피드백을 주는 대화형 에이전트의 기반이 되고 있습니다.
대표적인 LMM
- GPT-4o (Omni): 텍스트, 음성, 이미지를 네이티브로 병렬 처리하여 실시간에 가까운 대화가 가능하며, 강력한 번역, 코드, 복합적 추론 성능을 가진 OpenAI의 플래그십 모델입니다.
- Gemini 1.5 Pro / Ultra 시리즈 (Google DeepMind): 최대 200만 토큰에 이르는 초대형 컨텍스트 윈도우를 바탕으로 초장편 비디오 파일 분석 및 문서 요약에서 압도적인 효율을 자랑합니다.
- Claude 3.5 / 3.7 Sonnet (Anthropic): 고급 코딩 보조와 시각 자료 분석(디자인 목업의 코드 변환 등)에 탁월하며, 빠르고 정확한 논리 능력을 보여줍니다.
- LLaVA-NeXT: 오픈소스 진영을 대표하는 LMM 중 하나로, 거대한 토큰을 소화하며 Llama 3, Qwen 등의 강력한 기저 모델과 결합하여 높은 성능을 냅니다.
- OpenAI o1, o3: 시각 정보 처리 및 고차원적인 복합 논리 추론(Reasoning)에 특화하여, 수학, 코딩 등 복잡한 요구사항에서 단계적 사고 과정을 거쳐 뛰어난 성능을 보입니다.