LVA (Large Vision-Action Models / VLA)

LVA(Large Vision-Action Models) 또는 VLA(Vision-Language-Action) 모델은 시각적 인식능력, 언어 이해능력, 그리고 물리적 제어(행동) 생성 능력을 하나의 프레임워크로 통합한 모델입니다. 주로 로보틱스와 체화된 인공지능(Embodied AI) 분야에서 핵심적인 역할을 합니다.

최근 트렌드 (2024-2025)

End-to-End 제어: 기존 로봇 시스템이 사람의 개입 하에 ‘인식 -> 계획 -> 제어’의 파이프라인을 분리해 처리했던 반면, LVA 모델은 시각 정보와 텍스트(언어 지시)를 바로 입력받아 곧바로 로봇의 관절 제어값이나 액션(Action)을 생성하는 종단간(End-to-End) 학습을 수행합니다.
듀얼 시스템 아키텍처: NVIDIA GR00T N1과 같이 저수준(low-level)의 실시간 제어를 위한 빠른 Diffusion 정책 모델과 고수준(high-level)의 복잡한 태스크를 계획하는 LLM 기반 플래너를 결합하는 하이브리드 설계가 두각을 나타내고 있습니다.
인터넷 스케일 일반화: 웹 환경에서 학습된 대규모 시각/언어 지식을 로봇의 행동 언어(Action Language)로 치환하여 모델에 전이함으로써, 새로운 환경이나 이전에 본 적 없는 객체에 대해서도 제로샷(Zero-shot)에 가까운 강력한 적응 능력을 보여줍니다.
오픈소스 생태계 형성: 학계와 산업계에서 OpenVLA와 같은 완전히 오픈소스화된 상업용 VLA 모델이 배포되기 시작하여, 사용자 맞춤형 로보틱스 개발 허들이 크게 낮아졌습니다.

대표적인 모델

RT-2 (Robotics Transformer 2): Google DeepMind가 선보인 모델로, 로봇의 행동 궤적을 텍스트처럼 취급하여 시각-언어 모델(VLM)에 통합시켰으며 인터넷 텍스트 및 이미지 데이터를 통해 로봇의 일반적인 제어 능력을 이끌어냈습니다.
OpenVLA: 버클리 대학 연구진이 공개한 최초의 완전 오픈소스 상업용 VLA 모델로, 거대한 로봇 조작 데이터셋으로 사전 학습되어 연구 및 산업계 모두에서 활용도가 높습니다.
Project GR00T (NVIDIA): 휴머노이드 로봇을 구동하기 위해 설계된 범용 파운데이션 모델로, 복잡한 언어 지침 구문 및 3D 동작 인식을 통합하여 여러 종류의 로봇 하드웨어를 제어하도록 고도화되고 있습니다.
Figure AI의 Helix: 인간형 로봇 ‘Figure 01, 02’ 등에 탑재되어 실시간으로 환경을 보고 언어를 이해하여 커피 머신 작동, 물건 정리 등 실제 물리적 행동을 제어합니디.
UVA (Unified Video Action): 로보틱스 영상 생성 예측과 액션 제어를 공동으로 최적화하여 물리 세계에 대한 이해도와 조작 정확도를 높이기 위한 Large Video Action 기반 연구도 활발합니다.