소리 합성

사람 목소리의 주파수

목소리의 fundamental frequency의 경우 남성 85~180hz, 여성 165~255Hz이다.

그런데 전화통화 기술에서는 목소리의 범위를 300~3400Hz로 가정하고, 이를 voice frequency라고 한다. 그리고 목소리를 전송하는 채널은 4kHz를 쓰며 이에 따라 최소한 2배(Nyquist-Shannon의 샘플링이론에 의해)가 되는 8kHz로 샘플링을 해서 목소리를 pcm으로 변환한다.

https://en.wikipedia.org/wiki/Voice_frequency#:~:text=The%20voiced%20speech%20of%20a,frequency%20band%20as%20defined%20above.

Voice Synthesis에서의 두가지 큰 방법

- concatenative TTS: 짧은 speech fragments를 전부다 녹음해서 재조합+스무딩하는 방법. 새로운 종류의 발화나 새로운 목소리를 만들려면 엄청난양의 목소리를 녹음해야함. 이어붙이는 기술이랑, 문장의 context마다 자연스로운 목소리를 만들어내려면 문장마다 다 녹음을해야함.

- parametric TTS: 파라미터가 있는 모델로, 데이터를 학습해서 소리를 합성하는 방식.

저작자표시 비영리 변경금지 (새창열림)

'Research > Machine Learning' 카테고리의 다른 글

The Bitter Lesson 번역 (0)	2020.01.17
음성인식 기초 이해하기 (0)	2019.12.29
물리학에 기반한 모델 (0)	2019.05.15
강화학습, Exponentially weighted average계산하기 (0)	2019.01.22
PID 제어 (0)	2018.11.13

New Sight

소리 합성

사람 목소리의 주파수

Voice Synthesis에서의 두가지 큰 방법

'Research > Machine Learning' 카테고리의 다른 글

댓글

티스토리툴바

소리 합성

사람 목소리의 주파수

Voice Synthesis에서의 두가지 큰 방법

'Research > Machine Learning' 카테고리의 다른 글

관련글

댓글

티스토리툴바