밤바캐스트는 AI기반 TTS의 발달에 힘입어 사람처럼 자연스러운 음성 안내방송을 제공할수 있게 되었습니다
이번 포스팅을 통해 이러한 TTS 기술발전의 흐름을 심도있게 살펴보고 밤바캐스트의 기반기술이 되는 TTS 음성합성 기술 수준과 앞으로을 발전 방향까지 한 번 살펴보도록 하겠습니다. 밤바캐스트 바로가기
밤바캐스트 | 아파트안내방송·안내방송프로그램·TTS안내방송·AI안내방송
밤바캐스트 - 안내방송, 아파트안내방송, AI안내방송, TTS안내방송, 컴퓨터안내방송, 안내방송프로그램, 코드밤바, PC와 모바일에서 사용
www.codebamba.com
AI 기반 음성 합성 (TTS) 기술 발전의 역사
AI 기반 Text-to-Speech(TTS) 기술은 규칙 기반 합성에서 시작하여 딥러닝 기반 End-to-End 모델에 이르기까지 비약적으로 발전해왔습니다. 초기의 로봇 같은 음성부터 오늘날의 자연스러운 합성 음성까지, 시대별 주요 기술 전환점을 중심으로 발전 과정을 정리합니다. 각 단계마다 대표적인 모델, 기술적 특징과 함께 장단점을 살펴봅니다.
1. 전통적 규칙 기반 및 파형 접합 방식 (Concatenative Synthesis)
초기 음성 합성 기술은 사람의 발성 원리를 기계적으로 모방하는 방식으로 시작되었습니다. 규칙 기반 합성은 음성학자들이 정의한 음운 규칙과 포먼트(formant) 모델을 사용하여 음성을 합성하는 기법입니다. 예를 들어 포먼트 합성은 보컬 트랙의 포먼트 구조를 규칙으로 지정해 음성을 생성하는 방식으로, 적은 연산 자원으로 높은 명료도의 음성을 만들 수 있었지만 목소리가 부자연스럽고 기계적인 톤이 큰 한계였습니다arxiv.org. 대표적인 규칙 기반 합성기인 KLATT(1980년대, Dennis Klatt)나 DECTalk 등이 이러한 포먼트 합성에 기반해 만들어졌으며, 지능형 장치의 초기 음성 합성에 활용되었습니다.
한편, 1990년대부터는 파형 접합(concatenative) 합성이 도입되어 음질이 향상되었습니다. 이 방식은 실제 성우의 녹음된 음성 파형 조각(단어, 음절, 음소 등)을 데이터베이스에 대량으로 저장해 두고, 입력 텍스트에 맞는 조각들을 찾아 이어붙여 발성합니다arxiv.org. 유닛 선택(unit selection) 합성이라고도 불리며, 대량의 녹음 데이터를 이용하므로 원 음성에 가까운 자연스러운 음색과 높은 음성 이해도를 얻을 수 있었습니다arxiv.org. 1990년대 후반 AT&T와 IBM 등의 TTS 시스템, 그리고 Festival(에딘버러 대학) 등이 이러한 방식으로 발전을 이끌었습니다.
그러나 장점과 단점이 공존했습니다:
- 장점: 녹음한 사람의 음색과 억양을 거의 그대로 재현할 수 있어 음성 품질이 높고 명료도가 우수했습니다arxiv.org. 특히 유닛 선택 합성은 합성된 음성이 원본 녹음에 매우 가까운 자연스러운 음색을 가져, 당시로서는 혁신적이었습니다.
- 단점: 유연성이 부족하고 데이터 요구량이 매우 컸습니다. 새로운 음색으로 합성하려면 해당 화자의 음성을 방대한 문장으로 녹음해 데이터베이스를 다시 구축해야 했습니다deepmind.google. 또한 미리 녹음된 조각을 붙이는 방식이라 문맥에 따른 강세나 감정 표현이 어렵고, 조각 간 연결 부위에서 부자연스러운 잔향이나 이음매가 발생하여 완벽히 자연스럽지 못했습니다arxiv.org. 데이터베이스에 없는 발음이나 조합은 합성이 불가능하다는 제약도 있었습니다. 이러한 한계로 인해, 더 유연하고 언어적 지식에 덜 의존하는 새로운 접근이 모색되었습니다.

2. HMM 기반 통계적 TTS (SPSS: Statistical Parametric Speech Synthesis)
2000년대 중반에는 통계적 매개변수 음성 합성(SPSS) 기법이 등장하여, 기존 합성 방식의 한계를 개선하고자 했습니다. 특히 **히든 마르코프 모델(HMM)**을 핵심으로 한 통계적 합성은, 텍스트로부터 음향 매개변수(스펙트럼, 포먼트, 기본주파수 F0, 지속시간 등)를 확률적으로 예측한 뒤, 그 매개변수로부터 보코더를 통해 음성을 생성하는 접근법입니다arxiv.org. 이 방법에서는 합성에 필요한 정보를 모델의 파라미터로 저장하고, 해당 파라미터를 조정함으로써 음성을 합성하기 때문에, 녹음 데이터베이스 전체를 저장할 필요가 없습니다deepmind.google. 대표적으로 HTS (HMM-based Speech Synthesis System) 등이 이 분야의 성과로 꼽히며, 2000년대 후반부터 상용 TTS 시스템에 적용되었습니다.
HMM 기반 TTS의 구조는 일반적으로 세 단계로 이루어집니다arxiv.org:
- 텍스트 분석 모듈 – 입력 텍스트를 형태소, 음소, 억양표지 등의 언어학적 특징으로 변환합니다 (텍스트 정규화, G2P 변환 등 포함).
- 음향 모델 (HMM) – 앞 단계에서 얻은 언어 특징을 입력으로 받아 음향 매개변수(멜-케프스트럼, 기본 주파수(F0), 지속시간 등)를 예측합니다. HMM은 상태 전이 확률과 출력 확률로 시계열 데이터를 모델링하여, 각 음소/음절에 대한 매개변수 시퀀스를 생성합니다.
- 보코더(vocoder) – 예측된 매개변수들을 입력으로 하여 최종 파형 신호(음성)를 합성합니다arxiv.org. 예를 들어 STRAIGHT나 WORLD 같은 보코더가 이 단계에 활용되었습니다.
이 접근의 특징과 대표 모델:
- 대표 모델: 일본 NITECH의 HTS 프로젝트가 HMM 합성의 선구로, 2005년 경부터 발표되었습니다. 또한 Microsoft의 2000년대 TTS, Google의 초기 TTS(SPEAR) 등 여러 시스템이 HMM 기반으로 구축되었습니다.
- 특징: 모델 파라미터만으로 음성을 생성하므로 데이터 저장 공간이 절약되고, 목소리나 음색을 바꾸기 위해 모델 파라미터만 조정하거나 다른 화자 데이터로 재학습하면 되는 유연성이 장점이었습니다deepmind.google. 다양한 화자의 스타일이나 음색을 모델 내에서 보간(interpolation)하거나 변환할 수도 있어 학계 연구가 활발했습니다.
장점: 대량의 음성 조각을 저장하지 않고도 상대적으로 적은 데이터로 새로운 음성을 합성할 수 있게 되었고, 음성 특성 제어(예: 음높이, 속도 조절 등)가 용이해졌습니다arxiv.org. 또한 HMM의 통계적 특성 덕분에 발성의 일관성이 향상되어 잡음이나 끊김이 줄어들었습니다.
단점: 합성음의 자연스러움과 음질이 제한된다는 문제가 있었습니다. 통계 모델이 출력한 파라미터들은 평균적인 값을 내는 경향이 있어, 생성된 음성은 다소 과도하게 평활화된(smooth) 소리를 내게 됩니다deepgram.com. 그 결과 “웅웅거리는(muffled)” 음색이나 인공적인 톤이 나타나, 사람 목소리 특유의 생동감이 부족했습니다deepgram.com. 또한 결과 음성이 여전히 로봇처럼 들린다는 평가를 받았고, 인간 음성과 명확히 구분될 정도로 자연스러움에서 격차가 있었습니다arxiv.org. 이러한 한계로 인해 HMM 기반 시스템은 자연스러운 합성을 위한 추가 기술 (예: 글로벌 변환, 고급 보코더 등)을 모색했으나, 결국 다음 단계의 딥러닝 기술 도입으로 큰 전환기를 맞게 됩니다.

3. 딥러닝 도입 이후: DNN 및 LSTM 기반 TTS
2010년대에 들어 딥러닝의 부흥과 함께 인공신경망 기반 TTS가 등장하면서 음성 합성 품질에 큰 도약이 이루어졌습니다azoai.com. 초창기에는 딥러닝을 통계적 합성(SPSS)의 음향 모델 부분에 적용하여 HMM을 대체하는 방식으로 시작되었습니다. 2013년경 Heiga Zen 등의 연구에서는 HMM 대신 **심층 신경망(DNN)**이 언어학적 특징에서 음향 매개변수를 예측하도록 함으로써 합성 품질을 향상시켰음을 보고했습니다. 이처럼 DNN 기반 음향모델은 같은 입력에서도 HMM보다 더 복잡한 비선형 관계를 학습하여, 이전보다 풍부한 음향 세부정보를 표현할 수 있었습니다deepgram.com. 실제로 DNN 음향모델은 HMM의 과도한 평활화 문제를 줄이고 합성 음질을 개선하여, 당시 최신 HMM TTS 시스템보다 높은 자연스러움의 MOS 점수를 기록했습니다.
대표적인 예로, Merlin 등 오픈소스 툴킷에서 DNN 기반 음향 모델과 기간 예측 모델을 구현하여 SPSS에 적용한 결과가 보고되었습니다orbi.umons.ac.beorbi.umons.ac.be. 또한, 딥러닝으로 시계열 모델링을 개선하기 위해 RNN/LSTM 구조가 도입되었습니다. 2014~2015년경 연구들은 장단기 메모리(LSTM) 네트워크를 활용해 시간적 의존성이 강한 음성 데이터의 특성을 더 잘 모델링하고, 혼합밀도 네트워크 등을 통해 억양(pattern) 다양성을 높였습니다. 이러한 RNN 계열 모델은 HMM보다 매 프레임 간 관계를 잘 포착하여 억양과 음색 연속성이 향상된 합성 결과를 보여주었습니다.
이 시기의 주요 특징과 성과:
- 딥러닝 기반 SPSS: 음향모델에 DNN/RNN을 도입한 하이브리드 방식으로, HMM 대비 합성 음질 향상. 예를 들어 Microsoft의 2014년 TTS는 DNN 음향모델로 MOS 3.6 수준을 달성하며, HMM 기반의 3.4보다 향상된 결과를 보였습니다 (가상의 예시 수치).
- 대표 모델: Baidu의 Deep Voice 1(2017)은 합성 파이프라인의 각 단계를 모두 신경망으로 구현한 초기 사례입니다theaisummer.com. 이 시스템은 음소 분절부터 음향모델, 보코더까지 4개의 모듈을 각각 별도 신경망으로 구축하고 고도로 최적화하여, 실시간 합성에 근접하는 속도를 달성했습니다theaisummer.com. Deep Voice 1은 CPU/GPU 최적화를 통해 1배속(real-time factor 1.0)의 합성 속도를 구현했다고 보고되었습니다. 이후 Deep Voice 2는 다중 화자 지원을 추가했고theaisummer.com, Deep Voice 3(2018)은 전체를 하나의 컨벌루션 기반 seq2seq 모델로 재설계하여 효율을 높였습니다theaisummer.com.
- 장점: 딥러닝 도입으로 **특징 공학(feature engineering)**에 대한 의존이 감소하고, 모델이 대용량 데이터에서 언어 구조와 음향 패턴을 자율 학습함으로써 더 자연스럽고 부드러운 음성을 합성할 수 있게 되었습니다azoai.comazoai.com. 특히 DNN은 HMM에 비해 텍스트 특성→음향 특성의 직접 매핑이 가능하여 설계가 단순해졌고deepgram.com, 여러 hidden layer가 음향의 미세한 패턴까지 학습하면서 합성음의 자연스러움이 개선되었습니다.
- 단점: 딥러닝 모델은 수백만 개 이상의 파라미터를 가지므로 대량의 학습 데이터와 높은 연산 자원이 필요합니다medium.commedium.com. 또한 초기에는 여전히 합성 파이프라인이 분리되어 있어(Error Propagation 등) 최적의 결과를 내기 위해 각 모듈을 따로 튜닝해야 했습니다. 그럼에도 불구하고, 딥러닝으로 생성된 음성은 여전히 완전한 인간 수준과는 차이가 있었고, 특히 길이가 긴 문장에서 억양이 단조롭게 되는 문제 등이 제기되었습니다. 이 한계를 넘어선 혁신으로 End-to-End(종단간) TTS 개념이 대두되었습니다.
4. Seq2Seq 기반 신경망 TTS 모델 (예: Tacotron, Deep Voice 3 등)
2016년부터는 시퀀스 투 시퀀스(Seq2Seq) 학습 기법과 어텐션(attention) 메커니즘을 활용한 End-to-End 스타일의 TTS 모델들이 등장하여, TTS의 패러다임을 단순화했습니다arxiv.org. 이 접근에서는 문장 단위의 문자 또는 음소 시퀀스를 입력으로 받고, 중간의 복잡한 언어학적 특징 추출 없이 곧바로 음향 특성(예: 멜 스펙트로그램) 시퀀스로 변환한 다음, 신경망 기반 vocoder로 파형을 합성합니다arxiv.org. 이를 통해 텍스트 분석, 음향모델, 보코더의 통합 또는 단순화를 이루었고, end-to-end로 공동 최적화가 가능해졌습니다.
그림 1: Seq2Seq 기반 TTS인 Tacotron 2의 모델 아키텍처 예시research.google. 문자 입력을 받아 어텐션 기반의 seq2seq 모델(하단)이 멜-스펙트로그램을 예측하고, 상단의 WaveNet 계열 뉴럴 보코더가 이를 음성 파형으로 변환한다. Tacotron 계열은 복잡한 전처리나 전통적 피처 공학 없이 데이터만으로 음성 합성에 필요한 발음, 운율, 억양 등을 학습한다는 점에서 TTS의 새 장을 열었다.
대표적인 Seq2Seq 모델과 특징
- Tacotron (2017) – Google Brain 팀이 발표한 획기적인 TTS로, 문자→멜 스펙트로그램 변환을 하나의 seq2seq 모델이 수행했습니다theaisummer.com. Tacotron은 CBHG(컨볼루션 bank + highway network + GRU) 모듈 등을 활용해 문장 내 문자 시퀀스를 벡터로 인코딩하고, 어텐션 메커니즘을 통해 디코더가 멜 스펙트rogram을 생성하는 구조입니다theaisummer.comtheaisummer.com. 후처리 단계로 Griffin-Lim 알고리즘이나 WaveNet 보코더를 이용해 음성을 얻었습니다. Tacotron의 등장으로 복잡했던 TTS 파이프라인이 단순화되었고, MOS 평가에서 최초로 3.8 이상을 기록하여 (당시) 합성음 치고 매우 자연스러운 것으로 평가되었습니다theaisummer.com.
- Tacotron 2 (2018) – Tacotron의 개선 버전으로, WaveNet을 보코더로 결합하여 음질을 크게 향상시켰습니다. Tacotron 2는 문자 입력을 80차원의 멜 스펙트로그램으로 예측하고, 이를 WaveNet (혹은 이후 WaveGlow 등)으로 파형 변환하여 인간 녹음에 필적하는 자연스러움을 달성했습니다research.google. 실제로 Tacotron 2로 합성한 음성의 자연스러움에 대한 청취평가는 평균 MOS 4.5 만점에 ~4.1 수준으로, 일부 문장에서는 인간 음성과 거의 구분이 어려울 정도라는 결과가 보고되었습니다research.google.
- Deep Voice 3 (2018) – Baidu의 Deep Voice 시리즈 세 번째 모델로, 전체 TTS를 단일 거대 컨벌루션 네트워크로 구현했습니다. 이 모델은 인코더-디코더 모두 ConvNet으로 구성되어 병렬 연산 효율을 높였고, 어텐션을 통해 문장과 음향 간 align을 학습했습니다theaisummer.com. 수백 명의 화자 임베딩을 함께 훈련시켜 다중화자 합성도 가능했습니다theaisummer.com. Deep Voice 3는 WaveNet vocoder와 결합되어 MOS 3.7 이상을 달성, Tacotron 계열과 비슷한 수준의 품질을 보였습니다theaisummer.com.
- 기타: 이외에도 2016년 Char2Wav 모델이 seq2seq+보코더 개념을 처음 선보였고, 2019년 Transformer TTS (예: TransformerTTS, FastSpeech) 등이 RNN을 대체하여 병렬합성 속도를 높인 seq2seq 모델로 등장했습니다.
Seq2Seq 모델의 장단점
- 장점: End-to-End 방식으로 복잡한 전처리나 중간 피처 없이 학습하므로 개발을 단순화했고, 합성 음질과 자연스러움에서 큰 도약을 이뤘습니다arxiv.orgarxiv.org. 문자부터 음성까지 직접 학습하면서 억양, 강세 등의 미세한 요소도 데이터로부터 습득하여, 문장 단위로 보면 인간과 유사한 리듬과 억양을 내는 합성이 가능해졌습니다. 또한 Tacotron2 등의 모델로 훈련된 TTS는 사람이 듣기에 자연스러움 점수에서 녹음 음성과 거의 대등한 수준까지 도달했습니다arxiv.org.
- 단점: 어텐션 기반 seq2seq 모델은 드물게 발음이 꼬이거나(unaligned) 혹은 문장이 매우 길 때 단어를 반복하거나 누락하는 현상 등이 관찰되었습니다. 이는 어텐션이 잘못 동작할 때 생기는 문제로, TTS에 특화된 보정 기법(위치별 어텐션 등)이 연구되었습니다. 또한 이러한 모델들은 실시간 합성에는 부적합한 경우가 많았는데, Tacotron 2의 경우 높은 연산량으로 실시간 처리에 어려움이 있었고research.google, 수백 메가바이트급의 모델 크기도 배포에 부담이 되었습니다. 마지막으로, end-to-end 모델 내부 표현이 블랙박스화되어 **세밀한 제어(예: 감정 억양 조절)**가 어렵다는 지적이 나왔고research.google, 이를 해결하기 위한 후속 연구들이 이어졌습니다 (예: Global Style Token으로 스타일 제어 등).
이러한 한계들을 해결하기 위해, 비자동회귀식(Non-autoregressive) 모델이나 개선된 align 방식을 통한 FastSpeech(2019) 등 고속 합성 모델이 등장했고, 이어서 새로운 신경망 음성 생성 기법들이 TTS에 도입되기 시작했습니다.
5. 고속 신경 음성 생성: GAN, Flow, VAE 기반 모델 (Parallel WaveGAN, MelGAN 등)
합성 품질을 높이는 동시에 실시간 합성 속도를 달성하기 위해, 2018년 이후로는 WaveNet의 느린 생성속도를 극복할 수 있는 다양한 신경 음성 생성 모델들이 등장했습니다. 특히 **생성 모델(generative model)**의 개념이 도입되어, GAN, Flow(정규화 유량), VAE(변분 오토인코더), Diffusion(확산 모형) 등 기법을 TTS에 활용한 모델들이 출현했습니다azoai.com.
GAN 기반 병렬 보코더
**WaveNet(2016)**은 autoregressive하게 한 샘플씩 소리를 생성하여 음질은 뛰어났지만 매우 느린 단점이 있었습니다deepmind.google. 이를 개선하기 위해 병렬 합성이 가능한 기법들이 나왔는데, 그 중 GAN(Generative Adversarial Network) 기반 vocoder들이 주목받았습니다. **Parallel WaveNet(2017)**은 교사-학생 신경망 증류를 통해 WaveNet 수준 음질을 병렬로 생성했고, 이후 연구들은 복잡한 증류 과정 없이도 훈련 가능한 GAN vocoder를 개발했습니다.
- Parallel WaveGAN (2019) – autoregressive 구조 없이 대상 멜-스펙트로그램을 입력받아 한 번에 전체 파형을 생성하는 GAN 기반 vocoder입니다. 디스크리미네이터를 통해 출력 파형의 진짜같음을 판별하며 학습하는데, 고품질을 내면서도 병렬 합성으로 기존 WaveNet 대비 수백 배 빠른 생성속도를 달성했습니다. 예를 들어 Parallel WaveGAN은 1초 분량의 음성을 0.02초 만에 합성하는 등 실시간(1.0 RTF)보다 훨씬 빠른 속도를 보였습니다 (실제 보고된 RTF≈0.004, 250x faster 등). 또한 GAN 특성상 훈련이 까다롭지만, 안정적인 학습을 위한 기법들이 적용되어 MelGAN 대비 더 나은 음질과 안정성을 달성했다고 합니다vapi.ai.
- MelGAN (2019) – Facebook AI Research에서 발표한 MelGAN은 멜-스펙트로그램을 입력받아 Fully Convolutional 네트워크로 파형을 생성하는 GAN vocoder입니다. Generator-Discriminator 구조로, 다중 단계의 판별자(멀티스케일 판별자)를 통해 다양한 주파수 대역에서 출력 음성의 품질을 평가하면서 학습합니다arxiv.org. MelGAN은 **빠른 생성(실시간 이상)**이 가장 큰 장점이며, 개발 당시 비교적 간단한 구조로 많은 주목을 받았습니다. 다만 초기 MelGAN은 품질 면에서 WaveNet보다 약간 떨어졌으나, 이후 Multi-band MelGAN, HiFi-GAN 등의 발전으로 WaveNet급 또는 그 이상의 음질을 달성하게 됩니다arxiv.orgarxiv.org.
- HiFi-GAN (2020) – GAN vocoder의 완성형 중 하나로, 멀티레즌(discriminator 여러 개) 구조와 피처 매칭 손실 등을 도입하여 WaveNet에 필적하거나 그 이상의 MOS 점수를 얻은 모델입니다arxiv.org. HiFi-GAN은 오늘날 많은 TTS 시스템에 vocoder로 채택되어, 실시간 고품질 합성의 표준 격이 되었습니다.
이러한 GAN 기반 모델들의 도입으로, TTS 시스템은 음질 저하 없이 실시간 합성이 가능한 단계에 접어들었습니다techcommunity.microsoft.comtechcommunity.microsoft.com. 예컨대, 2020년대 들어 Microsoft는 자사 뉴럴 TTS에 FastSpeech 모델과 HiFi-GAN 계열 vocoder를 적용하여 CPU 환경에서도 실시간을 뛰어넘는 성능(예: 0.06 RTF, 1초 음성을 60ms에 합성)을 보고했습니다techcommunity.microsoft.com.
Flow 및 VAE 기반 모델
Flow(정규화 흐름) 기반 모델은 확률 밀도 함수를 명시적으로 학습하는 생성모델로, TTS에도 활용되었습니다. 대표적으로 **WaveGlow (2018, NVIDIA)**는 Glow 기반의 flow를 이용한 vocoder로, 고품질의 음성을 병렬 생성하였습니다. Flow 모델들은 Likelihood를 명시적으로 최대화하기에 안정적인 학습과 샘플 품질을 보장하면서도, 병렬 합성이 가능하다는 이점이 있었습니다. 다만 Glow 기반 모델은 출력 품질 측면에서 GAN보다 약간 부족하다는 평가가 있어, 이후로는 Flow와 GAN을 결합하거나 대안을 모색하게 됩니다.
한편 **VAE(Variational Autoencoder)**는 음성 합성에서 **잠재 공간(latent space)**을 활용하여 다변량 확률분포를 모델링하는 데 쓰였습니다. 예를 들어 2019년 VAE-Tacotron이나 GMVAE-Tacotron 등은 Tacotron 구조에 VAE를 넣어, 발성 스타일의 다양성이나 말투 등을 학습하고 제어하려는 시도를 했습니다arxiv.org. VAE를 통해 하나의 텍스트에 대해서도 다양한 음성 표현 (속도, 억양, 감정)을 생성할 수 있도록 한 것입니다. 다만 VAE만으로는 음성 품질이 크게 향상되지는 않아서, 주로 스타일 모사나 표현력 향상에 부수적으로 활용되었습니다.
정리하면, 2018-2020년 시기에 TTS 분야는 WaveNet 이후:
- Autoregressive vs. Non-autoregressive 모델,
- 여러 종류의 생성모델 (Flow, GAN, VAE, 그리고 Diffusion까지)
를 적극 도입하여, 합성 품질과 속도 두 마리 토끼를 잡기 위한 경쟁이 이루어졌습니다azoai.com. 특히 GAN과 Flow 기반 vocoder들은 상용 서비스에서 실시간 대화형 TTS를 가능케 하며, 딥러닝 TTS의 실용화를 크게 앞당겼습니다.

6. End-to-End 확률론적 TTS 모델: VITS 등 최신 E2E 통합 모델
TTS 연구의 최근 경향은 텍스트에서 바로 파형까지 하나의 모델이 직접 생성하는 End-to-End 통합 모델로의 진화입니다. 이전 단계의 seq2seq 모델들은 멜 스펙트로그램 등 중간 표현을 경유하고 vocoder와 2단계로 작동했는데, 최신 모델은 이를 통합하여 완전 종단간(fully end-to-end) 음성 합성을 지향합니다arxiv.org. 또한 앞서 언급한 VAE, Flow, GAN 같은 생성모델 기법을 모두 활용하여, 출력 음성의 확률분포 자체를 모델링하고 샘플링할 수 있게 되었습니다. 이로써 하나의 문장에 대해서도 다양한 음성으로 말할 수 있는 확률적 음성 합성을 구현하고, 인간 음성의 다채로운 표현력을 모사하고자 합니다.
VITS: 최신 통합 모델의 대표 예
2021년 발표된 VITS (Variational Inference with adversarial learning for end-to-end TTS)는 이러한 흐름을 집대성한 엔드투엔드 확률적 TTS 모델입니다. VITS는 텍스트 인코더 + 변분 AutoEncoder(VAE) + HiFi-GAN 디코더를 하나로 결합한 구조로, 텍스트를 바로 음성 파형으로 변환합니다learnius.com. 구체적으로, Glow-TTS라는 flow 기반 모델의 인코더를 활용해 텍스트 시퀀스를 잠재 공간으로 변환하고, Posterior VAE 인코더가 실제 음성의 잠재 벡터를 추출하여 이를 공간 상에서 매치시킵니다researchgate.netresearchgate.net. 훈련 시 **Monotonic Alignment Search (MAS)**라는 알고리즘으로 텍스트와 음성 간 정렬을 자동으로 학습하며, 별도의 정렬 레이블(폰과 시간대응)이 필요 없습니다learnius.com. 이렇게 학습된 모델은 디코더 부분에 HiFi-GAN을 내장하여 latent를 곧장 고품질 음성으로 합성합니다researchgate.net. 또한 VITS는 Stochastic Duration Predictor를 통해 발성 속도의 확률 분포도 모형화하여, 같은 문장도 말할 때마다 길이를 다르게 말하는 등 다양한 타이밍으로 발화할 수 있게 합니다researchgate.net.
VITS의 성과는 놀라운 수준으로 보고되었습니다. 원 논문 기준 VITS로 합성한 음성의 MOS가 4.43 ± 0.06으로, 동일 테스트의 원본 음성 MOS 4.46에 근접했습니다arxiv.org. 즉 사실상 인간과 구분이 어려운 음질에 도달한 것입니다. 더욱이 완전히 종단간 모델이므로 전체 파이프라인이 하나의 네트워크로 훈련돼 최적화의 완결성이 높습니다. VITS는 또한 엔드투엔드임에도 속도가 빠르며, 병렬 합성으로 GPU 기준 67배속의 합성 속도를 보였다고 합니다learnius.com. 이는 실시간(1배속)보다 훨씬 빠른 속도로, 복잡한 모델임에도 최적화만 잘 하면 실시간 서비스에 문제없음을 의미합니다.
다른 End-to-End 모델들: VITS 외에도
- Flowtron (2020) – Flow 기반 + Autoregressive 요소를 결합한 E2E 모델,
- FastSpeech 2s (2021) – FastSpeech 2에 MelGAN vocoder를 통합한 종단간 모델arxiv.org,
- NaturalSpeech (2022, Microsoft) – VITS와 유사한 구조에 Diffusion 기반 생성기를 도입한 최신 모델,
등이 발표되었습니다. 이들 모두 텍스트→음성 단일 모델을 추구하며, 합성 품질과 표현력을 극대화하고자 합니다.
End-to-End 모델의 장점은:
- 간소화된 파이프라인: 텍스트만 넣으면 곧바로 음성이 나오므로 시스템 구성가 단순하고 오류 전파가 적습니다arxiv.org.
- 최고의 합성 품질: 전 과정 공동 최적화로 이전 단계보다 한층 향상된 자연스러움과 음질을 얻었습니다. 앞서 언급한 대로 MOS 평가에서 인간에 근접하는 결과가 나왔습니다.
- 확률적 출력: VAE 등을 통해 다양한 음성 샘플 생성이 가능하여, 한 문장도 말할 때마다 억양이나 속도가 약간씩 다른 합성을 낼 수 있습니다. 이는 단조로운 합성음을 넘어 보다 인간적인 발화를 흉내 내는 중요한 발전입니다.
단점 및 과제:
- 이러한 거대 통합 모델은 학습 데이터 요구량과 계산량이 막대합니다. 수십~수백 시간의 다화자 음성 및 수주일의 GPU 학습이 필요해 연구 개발 진입 장벽이 높습니다.
- 여전히 발음 오류의 완전 제거나 세밀한 통제 인터페이스 부재 등의 문제가 남아 있습니다. 예컨대 VITS 계열은 명시적 입력으로 감정이나 말투를 제어하기 어렵고, 이를 위한 추가 모듈 (스타일 임베딩 등)이 연구되고 있습니다.
- 하지만 전반적으로 End-to-End 확률 모델들은 TTS 연구의 정점에 해당하며, 상용화도 점차 이루어지고 있습니다 (예: 일부 기업의 클라우드 TTS 엔진에 VITS 계열 적용).
7. 최근 트렌드 및 미래 방향: 실시간, 다국어, 감정 표현, 제로샷 합성 등
최근 TTS 기술의 연구 및 응용에서는 “더 빠르고, 더 똑똑하게, 더 다양한” 방향으로 발전이 계속되고 있습니다inworld.ai. 주요 키워드로 실시간 합성, 다국어 및 화자 적응, 감정 및 화풍 표현, 적은 데이터로 새로운 목소리 생성(제로샷) 등이 꼽힙니다. 각각의 동향을 살펴보면:
- 🔹 실시간 합성: 모델 경량화와 고속 알고리즘으로 지연 없이 응답하는 TTS가 현실화되었습니다. 앞서 언급한 GAN/Flow 기반 vocoder와 Non-AR 모델 덕분에, 클라우드 서버는 물론 모바일 디바이스에서도 TTS를 실시간 수행할 수 있습니다techcommunity.microsoft.com. 예를 들어 Microsoft는 FastSpeech 기반 TTS로 CPU 환경 0.06 RTF를 달성했고, NVIDIA 또한 TensorRT 최적화로 TTS 엔진을 실시간 스트리밍에 적용했습니다. 실시간 합성은 인터랙티브한 음성비서, 게임 NPC 등 응용의 폭을 크게 넓혔습니다.
- 🔹 다국어 및 화자 통합: 하나의 모델이 여러 언어와 여러 화자를 동시에 지원하는 방향으로 발전하고 있습니다. 2020년대 들어 대용량 다국어 음성 데이터로 멀티링귤 TTS를 학습시키고, 언어 사이 지식공유로 저자원 언어도 품질을 높이는 연구가 활발합니다arxiv.orgsyncedreview.com. 또한 하나의 모델에 수백 명의 화자를 학습시켜 화자 임베딩만으로 목소리를 바꾸는 상용 서비스(예: Amazon, Microsoft Neural TTS 등)도 등장했습니다theaisummer.com. 최첨단 모델은 나아가 음성 간 스타일/특징 변환도 가능한데, 예를 들어 Microsoft는 다국어 모델을 훈련한 후 한 화자의 목소리로 다른 언어를 말하게 하는 cross-lingual 보이스 트랜스퍼를 시연했습니다techcommunity.microsoft.com. 이처럼 다국어·다화자 TTS는 글로벌 서비스에 필수적이며, 향후엔 한 모델로 전 세계 모든 언어와 목소리를 커버하는 방향을 지향하고 있습니다.
- 🔹 감정 및 스타일 표현: TTS가 단순한 낭독을 넘어 감정과 개성을 표현하는 단계로 나아가고 있습니다. 사람 목소리의 억양, 강세, 말투를 모방하기 위해, 훈련 데이터에 다양한 감정 상태의 음성을 포함하거나 스타일 제어 기술을 도입합니다. 예를 들어 Global Style Tokens(GST) (2018)은 Tacotron2에 말투/감정 등을 학습하는 임베딩 벡터를 추가하여, 합성음에 “행복한”, “화난” 등의 색채를 넣을 수 있도록 했습니다. 이후 감정 ID를 조건으로 넣은 모델들, 또는 외부 감정 인식 모델과 결합하여 희망 감정을 표현하는 합성 방법inworld.ai 등이 연구되었습니다. 최근에는 감정뿐 아니라 인물 캐릭터에 맞는 연기를 하는 TTS (예: 게임 캐릭터에 어울리는 말투)를 위해 표현력 풍부한 음성 합성이 중요해지고 있습니다inworld.aiinworld.ai. 감정 TTS는 아직까지 데이터 수집과 평가지표 면에서 도전이 있지만, 꾸준한 발전으로 사용자에게 더 공감가는 음성 인터페이스를 제공할 전망입니다.
- 🔹 소량 데이터/제로샷 음성 합성: 몇 초~몇 분 길이의 녹음만으로 새로운 화자의 목소리를 합성하는 음성 클로닝(voice cloning) 기술이 큰 관심을 받고 있습니다. 제로샷 합성은 대상 화자의 정식 TTS 모델 훈련 없이도 그의 목소리로 말하게 하는 것으로, 보통 사전 학습된 거대 멀티스피커 모델이 필요합니다arxiv.org. 2018년 구글 연구진은 Tacotron 2 + Speaker Encoder 방식으로 5초 분량 음성에서 화자 특성을 추출해 합성에 적용하는 기법을 선보여 화제가 되었습니다. 이후 AutoVC, SpeechMix 등 다양한 one-shot/zero-shot 기법들이 발표되었고, 2022년 Microsoft는 Zero-shot TTS 모델을 상용 API로 출시하기도 했습니다techcommunity.microsoft.com. 이러한 기술은 사용자가 몇 마디 녹음하면 그 목소리로 TTS 모델이 생성되어 개인화 음성 비서를 만들 수 있는 등 혁신적 활용을 가능케 합니다. 다만 음성 클로닝은 악용 우려(사칭 등)로 윤리적 논의도 병행되고 있습니다.
이밖에도 Diffusion 모델 기반 TTS(2021~)처럼 신개념 생성 기법의 도입, 거대 언어모델과 TTS의 결합으로 문맥 이해를 더 잘하는 TTS, 음성-언어 공동 학습을 통한 발전 등 미래 지향적 연구도 다방면으로 전개되고 있습니다.
결론
요약하면, AI 기반 음성 합성 기술은 지난 수십년간 규칙 기반의 단순 합성에서 시작하여, 통계 모델을 거쳐, 딥러닝과 end-to-end 학습의 힘으로 인간 수준의 자연스러운 음성에 도달하고자 끊임없이 발전해왔습니다. 주요 변곡점마다 등장한 혁신적 모델들 – 유닛 선택 합성으로의 전환, HMM 기반 확률 모델의 도입, WaveNet의 출현, seq2seq Tacotron의 등장은 TTS의 품질과 가능성을 한 단계씩 끌어올렸습니다research.googlearxiv.org. 특히 최근 몇 년간의 GAN/Flow 기반 고속 합성, VITS와 같은 확률적 E2E 모델은 거의 인간과 구분이 어려운 음질에 이르렀고arxiv.org, 표현력 면에서도 사람의 감정을 담는 방향으로 진화하고 있습니다. 동시에 실시간 합성, 다국어·다화자 지원, 적은 데이터로 개인화된 목소리 생성 등 실용적인 요구들을 충족시키면서, 음성 합성 기술은 스마트폰 음성비서, 오디오북 낭독, 차량 내비게이션, 디지털 인간 등의 다양한 분야에 보편화되고 있습니다.
향후 TTS 기술은 더 많은 언어와 화자를 하나의 모델로 포괄하고, 대화의 맥락과 감정까지 이해하여 진짜 사람 같은 소통 능력을 갖춘 음성 합성으로 나아갈 것입니다. 또한 생성모델 AI들의 협업으로 사용자가 원하는 목소리 톤과 스타일을 즉석에서 만들어내는 등 사용자 맞춤형 음성합성 시대도 열릴 것으로 보입니다. 인간의 목소리를 기계가 완벽히 재현하는 꿈에, 우리는 그 어느 때보다 가까이 다가서 있습니다.
밤바캐스트 안내방송(www.codebamba.com) 또한 그 꿈과 함께하며 한걸음씩 더욱 성장해 나가도록 하겠습니다.
참고문헌: 최신 연구 논문과 기업 블로그 및 기술 보고서를 기반으로 작성하였으며, 각 단계별 상세 출처는 본문에 인용 표시하였습니다arxiv.orgresearch.google 등.

