기존 한계를 뛰어넘은 하이브리드 구조의 음성 언어 모델… 오디오북·음성비서 등 실전 활용 기대
KAIST 전기및전자공학부 노용만 교수 연구팀(박세진 박사과정)이 장시간 음성을 자연스럽고 일관되게 생성할 수 있는 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다고 7월 3일 밝혔다. 이 모델은 기존 음성 언어 모델의 시간적·기술적 한계를 구조적으로 해결한 차세대 AI 기반 기술로, 실제 인간처럼 말하는 인공지능 음성비서, 오디오북, 팟캐스트 등 다양한 활용 분야에 실용화 가능성을 열었다.
이번 연구 결과는 머신러닝 분야 세계 최고 권위 학술대회인 ICML(International Conference on Machine Learning) 2025에서 구두 발표 논문으로 채택되었으며, 제출 논문 중 상위 약 1%에만 주어지는 자리로 KAIST의 연구 경쟁력을 다시 한번 입증한 사례로 평가받는다.
‘말하는 AI’의 구조적 문제, 상태공간모델로 해결
기존의 음성 언어 모델(Spoken Language Model, SLM)은 텍스트를 거치지 않고 인간의 음성을 직접 학습하여 말하는 AI를 만드는 기술이다. 하지만 대부분의 모델이 짧은 문장 단위까지만 자연스러운 생성이 가능하고, 시간이 길어질수록 화자의 일관성과 이야기 흐름이 급격히 저하된다는 한계가 있었다. 이는 음성 데이터의 시간 해상도와 시퀀스 길이 증가에 따라 메모리 사용량과 연산량이 기하급수적으로 증가하기 때문이다.
연구팀은 이러한 문제를 해결하기 위해, 어텐션(attention)과 순환(recurrent) 구조를 교차 배치한 하이브리드 상태공간모델(Hybrid State-Space Model)을 도입했다. 이 방식은 최신 정보를 포착하면서도 전체 이야기의 맥락을 장기적으로 유지할 수 있어, 수 분 이상 장시간 음성도 자연스럽게 이어갈 수 있는 구조적 안정성을 확보했다.
또한 음성을 ‘윈도우 단위’로 잘라 독립적으로 처리한 뒤 다시 붙이는 방식을 통해, 무한 길이 음성(unbounded speech sequence)의 생성이 가능해졌다.
음성 생성 속도와 품질을 동시에 높이기 위해, 연구팀은 ‘비자기회귀(Non-Autoregressive)’ 방식의 음성 디코더(SoundStorm)를 결합했다. 이는 한 글자씩 순차적으로 말하는 기존 방식보다 빠르게 전체 발화를 합성하는 기술로, 고품질 음성을 실시간에 가깝게 생성할 수 있다.
연구팀은 평가를 위해 기존의 짧은 문장 중심 벤치마크를 넘어, 자체적으로 최대 16분 길이의 ‘LibriSpeech-Long’ 데이터셋을 구축하고, 새로운 평가 지표인 SC-L(시간에 따른 의미 일관성), N-MOS-T(시간에 따른 자연스러움) 등을 도입했다. 결과적으로, 초기 프롬프트에서 제시한 주제와 인물들을 수 분 이상 맥락적으로 유지하며 음성이 생성되는 것을 확인했다.
이는 기존 모델들이 장시간 생성 시 주제를 반복하거나 맥락을 잃어버리는 문제를 상당 수준 개선했음을 보여준다.

SpeechSSM은 향후 오디오북, 팟캐스트, 온라인 강의, AI 상담 시스템 등 장시간 음성 콘텐츠 생성이 필요한 다양한 산업 분야에 활용될 수 있을 것으로 기대된다. 특히 텍스트 없이 음성만으로도 자연스럽고 맥락 있는 결과물을 생성할 수 있다는 점에서, 인공지능 기반 비서나 실시간 응대형 챗봇의 음성화에 큰 전기를 마련했다는 평가다.
박세진 박사과정생은 “기존 음성 언어 모델의 장시간 생성 한계를 넘고자 했다”며 “이번 연구는 효율성과 품질, 일관성 모두를 확보한 기술로, 다양한 음성 콘텐츠 생성 분야에 기여할 수 있을 것”이라고 밝혔다.
#KAIST #SpeechSSM #음성언어모델 #장시간음성생성 #AI음성비서 #오디오북AI #팟캐스트AI #하이브리드모델 #ICML2025 #비자기회귀합성 #박세진연구원 #KAIST성과