ALM (Audio-Language Models)

ALM(Audio-Language Models)은 텍스트와 음성(오디오) 데이터를 동시에 이해하고 매끄럽게 처리하는 모델입니다. 기존의 STT(Speech-to-Text)와 TTS(Text-to-Speech)를 거치며 발생하던 지연 시간과 감정/어조 손실을 극복하고자, 처음부터 오디오와 텍스트를 통합하여 네이티브하게 학습(End-to-End)하는 방향으로 빠르게 발전하고 있습니다.

최근 트렌드 (2024-2025)

Speech-to-Speech (S2S)의 주류화: 중간에 텍스트로 변환하는 과정을 생략하거나 내재화하여, 입력된 음성을 실시간에 가까운 속도(sub-200ms)로 분석하고 다시 음성으로 자연스럽게 대답하는 기술이 상용화 레벨에 도달했습니다.
높은 감정 지능(Emotional Intelligence): 말하는 사람의 어조, 높낮이, 억양 등을 파악하여 화자의 감정을 섬세하게 이해하고 그에 맞춰 공감하는 듯한(Empathetic) 음성 답변을 생성하는 능력이 두각을 나타냅니다.
오디오 네이티브 대형 언어 모델 (Audio-Native LLMs): 텍스트 기반 LLM에 음성 모듈을 임시로 덧붙이는 대신, 언어 데이터와 마찬가지로 오디오 토큰 자체를 직접 이해하는 ‘오디오 네이티브’ 모델들이 개발되어 더 깊은 뉘앙스를 처리합니다.

대표적인 모델 및 플랫폼

GPT-4o (OpenAI): 텍스트, 비전뿐만 아니라 오디오를 네이티브하게 이해하며 실시간 Voice 대화를 통해 사람처럼 억양이나 감정 표현, 심지어 숨소리까지 재현할 수 있는 강력한 모델입니다.
Moshi (Kyutai): 놀라운 반응 속도를 보여주며 실시간 양방향(Full-duplex) 대화가 가능한 오픈소스 음성 모델로, 상대방이 말을 하는 도중에도 듣고 반응하거나 대화를 스위칭할 수 있습니다.
EVI - Empathetic Voice Interface (Hume AI): 사용자의 목소리에 담긴 미묘한 감정적 뉘앙스와 톤을 딥러닝으로 포착하고, 대화의 문맥과 상황에 맞게 감정이 실린 음성으로 반응하는 데 특화되었습니다.
Voxtral (Mistral AI): Mistral 진영에서 준비 중인 오디오 네이티브 모델로, 더 빠르고 강력한 다국어 음성 지능 및 실시간 API 처리를 목표로 개발되고 있습니다.
Gemini Live / AudioPaLM (Google): 오디오 토큰과 텍스트 토큰을 하나의 시퀀스로 묶어 통합 처리함으로써 다국어 STT/TTS 및 음성-음성 번역을 빠르고 정교하게 수행합니다.
ElevenLabs: 고도로 사실적인 AI 음성 합성과 매우 짧은 지연시간(Ultra-low latency)을 가진 텍스트-음성, 음성-음성 변환 특화 AI 분야에서 세계적인 리더 플랫폼으로 평가받고 있습니다.