Multimodal RAG (멀티모달 RAG)

Multimodal RAG는 텍스트 문서에만 국한되었던 검색 증강의 범위를 이미지, 차트, 비디오, 오디오 파형 등 다양한 유형의 데이터로 확장하는 기술입니다. 의료 영상 진단 보조, 설계 도면 기반 질의응답, 복합 문서(텍스트+표+이미지가 섞인 PDF) 분석 등 실생활과 기업 요구에 직결된 분야에서 강력한 위력을 발휘합니다.

핵심 파이프라인 아키텍처

텍스트와 시각 정보를 동시에 혼합 검색(Cross-modal retrieval)하기 위해 주로 세 가지 접근 방식을 사용합니다.

1. 통합 벡터 공간 임베딩 (Unified Vector Space)

텍스트와 이미지를 CLIP (Contrastive Language-Image Pre-training) 등 멀티모달 인코더를 사용하여 동일한 개념적 지형도(벡터 공간) 상에 임베딩합니다.

사용자가 텍스트로 질문하면 이와 의미상 가장 가까운 이미지 자료와 텍스트 문서를 한 번의 벡터 서치만으로 동시에 찾아낼 수 있습니다.

2. 주 모달리티로의 변환 (Grounding to a Primary Modality)

비텍스트 데이터를 검색 및 분석하기 용이한 텍스트 기반 메타데이터로 사전에 변환해 두는 방식입니다.

캡셔닝(Captioning): GPT-4V, LLaVA 등 고성능 시각-언어 모델(VLM)을 사용하여 데이터베이스 내의 이미지, 도표 등에 대한 매우 상세한 요약본을 텍스트로 자동 생성합니다.
RAG 시스템은 이렇게 생성된 캡션 텍스트를 기준으로 검색을 수행하며, 조건에 맞는 원본 이미지 원본을 함께 꺼냅니다.

3. 분리 스토어 및 멀티모달 Re-ranker

텍스트 정보는 텍스트 임베딩 전용 고효율 DB에, 시각 이미지는 메타데이터나 별도 보관소에 분리하여 저장합니다.
사용자의 복잡한 멀티모달 질의가 들어오면, 각 스토어에서 1차로 단서들을 가져옵니다. 그 후 전용 멀티모달 Re-ranker(재순위화 모델)가 시각적 뉘앙스와 텍스트 문맥을 종합 평가하여 최적의 단서 조합을 골라냅니다.

답변 생성 (Generation)

검색을 통해 수집된 다양한 형태의 단서(텍스트 청크, 로우 이미지 파일, 도표 구조 등)는 모달리티 변환 없이 차세대 LMM (Large Multimodal Model) 자체 프롬프트 안에 입력됩니다.

GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet 등은 긴 문서 텍스트와 검색된 여러 장의 시각 이미지를 한 번에 컨텍스트로 받아들여 지식의 누락 없이 정교한 다차원 답변을 만들어냅니다.