본문 바로가기
Research/Machine Learning

소리 합성

by IMCOMKING 2019. 12. 9.



사람 목소리의 주파수

목소리의 fundamental frequency의 경우 남성 85~180hz, 여성 165~255Hz이다.
그런데 전화통화 기술에서는 목소리의 범위를 300~3400Hz로 가정하고, 이를 voice frequency라고 한다. 그리고 목소리를 전송하는 채널은 4kHz를 쓰며 이에 따라 최소한 2배(Nyquist-Shannon의 샘플링이론에 의해)가 되는 8kHz로 샘플링을 해서 목소리를 pcm으로 변환한다.





Voice Synthesis에서의 두가지 큰 방법

- concatenative TTS: 짧은 speech fragments를 전부다 녹음해서 재조합+스무딩하는 방법. 새로운 종류의 발화나 새로운 목소리를 만들려면 엄청난양의 목소리를 녹음해야함. 이어붙이는 기술이랑, 문장의 context마다 자연스로운 목소리를 만들어내려면 문장마다 다 녹음을해야함.

- parametric TTS: 파라미터가 있는 모델로, 데이터를 학습해서 소리를 합성하는 방식. 








'Research > Machine Learning' 카테고리의 다른 글

The Bitter Lesson 번역  (0) 2020.01.17
음성인식 기초 이해하기  (0) 2019.12.29
물리학에 기반한 모델  (0) 2019.05.15
강화학습, Exponentially weighted average계산하기  (0) 2019.01.22
PID 제어  (0) 2018.11.13

댓글