Qwen (Alibaba Cloud)

개요

Alibaba Cloud에서 개발한 Qwen(Tongyi Qianwen) 시리즈는 다국어(특히 동아시아 언어) 처리 능력과 뛰어난 코딩 성능으로 잘 알려진 오픈 웨이트 모델입니다. 2025년 공개된 Qwen3 시리즈는 ‘추론 모델’ 성능을 대폭 강화하며 글로벌 선두권을 유지하고 있습니다.

주요 시리즈 및 특징

1. Qwen2.5

다국어 지원: 29개 이상의 언어를 지원하며, 특히 한국어, 중국어, 일본어 성능이 탁월함.
코딩 및 수학: Qwen2.5-Coder 모델은 동급 파라미터 중 최고 수준의 전문성 확보.

2. Qwen3 (2025년 최신)

네이티브 추론 (Thinking): DeepSeek-R1과 유사한 ‘생각하는’ 모드를 기본 지원하여 복합 추론 성능 극대화.
규모: 최대 235B 파라미터(MoE) 모델을 포함하여 오픈 소스 모델 중 가장 방대한 라인업 보유.
장기 컨텍스트: 오픈 소스 버전 기준 262K 이상의 문맥 지원.

3. Qwen2.5-VL (Visual-Language)

비디오 이해: 1시간 이상의 긴 비디오를 이해하고 분석할 수 있는 능력을 갖춘 멀티모달 모델.
에이전트 기능: 비각적 정보를 바탕으로 컴퓨터 화면을 조작하거나 지시를 수행하는 능력 탁월.

기술적 강점

Gated Delta Networks: 선형 어텐션을 변형하여 추론 속도를 높인 하이브리드 구조 도입.
멀티모달 통합: 비전 엔진을 기본적으로 내장하여 시각적 추론 작업에서 강점.
대규모 생태계: 0.5B부터 235B까지 모든 세그먼트의 모델을 제공하여 모바일에서 서버까지 완벽 대응.

평가 및 벤치마크

Qwen3는 GPQA Diamond(대학원 수준 추론)와 IFBench(지시 이행)에서 최상위권 점수를 기록하고 있습니다. 특히 코딩 벤치마크에서는 글로벌 상용 모델들과 대등한 성능을 오픈 웨이트로 제공합니다.