CSV파일 인코딩(Encoding) 문제 해결하기
1. 현재 가지고 있는 csv파일에서 encoding이 무엇인지 알아내기
import chardet
import pandas as pd
filename = "Data_kr_v2.0.0_no_label_all_train3.csv"
with open(filename, 'rb') as f:
result = chardet.detect(f.readline()) # or read() if the file is small.
print(result['encoding'])
이와 같은 방식으로 해당 라인의 encoding이 무엇인지 알아낼 수 있다.
2. Excel에서 csv 저장할 때 encoding변경하기
그런데 실제로 이렇게 옵션을 주고 해봐도, 제대로 encoding이 변경되지 않는 버그..? 가 있는 것으로 추정된다.
3. Sublime text 이용해서 변경하기
이 방법이 가장 쉽고 깔끔했다.
먼저 ConvertToUTF8이라는 패키지를 설치해준다.(단축키 Ctrl+Shift+P를 클릭하고, package Control: Install Package를 선택하고, ConvertToUTF8을 선택하면 설치 완료)
그다음 내가 원하는 파일을 open하면, File 메뉴에 Reload with encoding이란 메뉴가 생겨나있다. 이걸 클릭해서 내 파일의 인코딩에 맞게 변경해줘야 하지만, 나같은 경우 csv파일이 한글(CPC949)인코딩을 알아서 인식해서 로딩해주었다!
그다음 다시 File 메뉴에, Set File Encoding to를 클릭해서 내가 원하는 UTF-8을 클릭하고, 저장하니 완벽히 문제가 해결되었다.
'Development > Python' 카테고리의 다른 글
Python Audio Processing (0) | 2020.05.02 |
---|---|
한글을 Sub-character level로 파싱하기(python으로 유니코드 파싱) (0) | 2020.04.16 |
Conda로 Python 버전 별 설치, 관리, 삭제하기 (0) | 2020.02.27 |
Python Multiprocessing 가이드 (2) | 2020.02.20 |
Python에서 directory 관련 명령어 (0) | 2020.02.19 |
댓글