본문 바로가기

2019/124

음성인식 이해하기 # 기본 개념 # Acoustic model 오디오 --> phoneme(혹은 grapheme 등)을 예측해주는 모델 # Phoneme Dictionary word -> phoneme가 기록된 정보 # G2P model 대규모 dictionary를 학습해서, 임의의 word에 대한 phoneme을 예측해주는 모델 (dictionary와의 차이점은, dictionary에 없는 word에 대한 phoneme 예측도 가능함) # Pitch: 음의 높낮이(진동수 Hz의 크고 작음과는 다르다) Pitch는 보다 추상적인 개념으로, 사람이 인지할 수 있는 Hz의 변화가 저주파일때 더 민감하고, 고주파로 갈수록 둔감해지는 just-noticeable differences에서 출발한 개념이다.즉 사람이 인지하는 음의 .. 2019. 12. 29.
Python coding convention: PEP 8 # PEP 8https://www.python.org/dev/peps/pep-0008/ ## 이름 짓기 - 클래스: ClassName- 예외 처리: WrongNameError- 상수: CONSTANT_VALUE- public 함수나 변수: lower_case- private 함수나 변수: _lower_case- 패키지나 모듈: lower_short - __이름: 은 특별한 python의 기능이 생긴다. 상속된 다른 class의 변수와 이름이 겹치지 않기위한 것으로, 다른이름으로 자동 변경된다. ## 이름 금지사항- mixedCase - Capitalized_Words_With_Underscores # Class와 Instance의 차이어떤 class를 정의한 다음, 해당 클래스를 initialize하면 .. 2019. 12. 17.
소리 합성 # 기본 개념 - Mono vs Stereo: 마이크 2개에서 녹음하고, 정확히 mono 2개의 정보를 저장하면 스테레오. - Sampling rate: data point의 x축 해상도. 즉 1초에 몇번이나 data point를 찍을지, - Bit depth: data point의 y축 해상도. 각 찍힌 점들이 구분될 수 있는 amplitude의 단계. 만약 2 bit rate이면 오직 4단계의 y축 해상도만 존재함. - Bit rate: Sampling rate * Bit depth, 위 두가지 measure를 동시에 고려하는것. 초당 bits전송량https://www.reddit.com/r/explainlikeimfive/comments/4d4krv/eli5_what_is_the_difference.. 2019. 12. 9.
소규모 프로젝트를 위한 GPU 자원, GCP # 무료 GPU 서버현재까지 알려진 가장 강력한 무료 GPU 서비스는 Google colab이 유일하다.그러나 colab은 하루에 12시간까지밖에 GPU를 쓸 수 없는 제약이 있고, 데이터를 지속적으로 서버에 올려둘 수가 없어서 google drive에 데이터를 올리고 이를 mount해서 사용해야하는데 이게 매우 불편하다. 또한 command line interface를 제공하지 않아서, jupyter의 cell에 !을 입력해서 해야하는데, 이 또한 매우 불편하다. 그리고 jupyter notebook도 기존에 사용하던 jupyter와 단축키 및 기능이 조금씩 달라서 적응하는데 꽤 시간이 걸린다. 그럼에도 불구하고 한시간에 1000원정도 하는 T4 GPU를 무료로 쓸 수 있다는 것은 분명 엄청난 메리트이.. 2019. 12. 8.