LVM (Large Vision Models)
LVM(Large Vision Models)은 거대한 규모의 시각 데이터(이미지, 비디오 등)를 기반으로 학습되어, 언어의 도움 없이도 그 자체로 강력한 시각적 이해와 패턴 인식 능력을 갖춘 모델입니다.
최근 트렌드 (2024-2025)
- Task-Agnostic(태스크 불가지론적) 아키텍처: 특정 태스크(예: 객체 인식, 분할) 하나에만 국한되지 않고, 프롬프팅이나 최소한의 파인튜닝만으로 다양한 비전 태스크를 수행할 수 있는 범용적인 모델이 주도하고 있습니다.
- 제로샷/퓨샷 일반화: 학습하지 않은 종류의 이미지 속성이나 객체에 대해서도 뛰어난 분할과 인식 성능을 보입니다.
- 효율성 최적화: 엣지 디바이스나 실시간 분석 시스템(예: 모바일, 로보틱스)에서 구동하기 위해 양자화, 가지치기, 지식 증류 등을 이용한 경량화가 활발히 이뤄지고 있습니다.
- 3D 및 4D 공간 인식 (Gaussian Splatting 등): 2D 이미지를 넘어, 실시간 3D 환경을 렌더링하고 비디오를 통해 동적 환경의 시간적 흐름(4D)까지 이해하는 기술이 부상하고 있습니다.
주요 기술 태스크 및 모델
- Segmentation (분할)
- SAM 2 (Segment Anything Model 2): Meta에서 발표한, 이미지와 비디오 내 어떠한 객체라도 사용자의 클릭이나 박스 등 간단한 입력만으로 정교하게 분할해내는 모델로, 기존 SAM보다 정확하고 빠릅니다.
- Object Detection (객체 탐지)
- YOLO v11: 지속해서 발전 중인 실시간 객체 탐지 모델 시리즈로, 객체의 위치뿐만 아니라 인스턴스 분할, 분류, 자세 추정(Pose Estimation)까지 범위를 넓혀 빠른 속도로 처리합니다.
- Feature Extraction (특징 추출 및 매칭)
- DINOv2: 자기 지도 학습(Self-Supervised Learning)을 통해 이미지에 대한 깊고 강건한 특징(Feature)을 뽑아내어, 뎁스(Depth) 추정이나 의미론적 분할 등 다양한 하위 태스크에 범용으로 활용 가능합니다.