본문 바로가기
Research/Machine Learning

소리 합성

by 곽동현 IMCOMKING 2019. 12. 9.



사람 목소리의 주파수

목소리의 fundamental frequency의 경우 남성 85~180hz, 여성 165~255Hz이다.
그런데 전화통화 기술에서는 목소리의 범위를 300~3400Hz로 가정하고, 이를 voice frequency라고 한다. 그리고 목소리를 전송하는 채널은 4kHz를 쓰며 이에 따라 최소한 2배(Nyquist-Shannon의 샘플링이론에 의해)가 되는 8kHz로 샘플링을 해서 목소리를 pcm으로 변환한다.





Voice Synthesis에서의 두가지 큰 방법

- concatenative TTS: 짧은 speech fragments를 전부다 녹음해서 재조합+스무딩하는 방법. 새로운 종류의 발화나 새로운 목소리를 만들려면 엄청난양의 목소리를 녹음해야함. 이어붙이는 기술이랑, 문장의 context마다 자연스로운 목소리를 만들어내려면 문장마다 다 녹음을해야함.

- parametric TTS: 파라미터가 있는 모델로, 데이터를 학습해서 소리를 합성하는 방식. 








'Research > Machine Learning' 카테고리의 다른 글

The Bitter Lesson 번역  (0) 2020.01.17
음성인식 기초 이해하기  (0) 2019.12.29
소리 합성  (0) 2019.12.09
물리학에 기반한 모델  (0) 2019.05.15
강화학습, Exponentially weighted average계산하기  (0) 2019.01.22
PID 제어  (0) 2018.11.13

댓글0