소리 합성

Research/Machine Learning

소리 합성

IMCOMKING 2019. 12. 9. 15:30

사람 목소리의 주파수

목소리의 fundamental frequency의 경우 남성 85~180hz, 여성 165~255Hz이다.

그런데 전화통화 기술에서는 목소리의 범위를 300~3400Hz로 가정하고, 이를 voice frequency라고 한다. 그리고 목소리를 전송하는 채널은 4kHz를 쓰며 이에 따라 최소한 2배(Nyquist-Shannon의 샘플링이론에 의해)가 되는 8kHz로 샘플링을 해서 목소리를 pcm으로 변환한다.

https://en.wikipedia.org/wiki/Voice_frequency#:~:text=The%20voiced%20speech%20of%20a,frequency%20band%20as%20defined%20above.

Voice Synthesis에서의 두가지 큰 방법

- concatenative TTS: 짧은 speech fragments를 전부다 녹음해서 재조합+스무딩하는 방법. 새로운 종류의 발화나 새로운 목소리를 만들려면 엄청난양의 목소리를 녹음해야함. 이어붙이는 기술이랑, 문장의 context마다 자연스로운 목소리를 만들어내려면 문장마다 다 녹음을해야함.

- parametric TTS: 파라미터가 있는 모델로, 데이터를 학습해서 소리를 합성하는 방식.

저작자표시 비영리 변경금지