# Pandas

데이터 분석을 하다보면 numpy보다 pandas가 더 편한 경우가 종종있다. 물론 속도는 numpy가 훨씬 빠르다.




# Groupby

특정 column을 지정하고, 해당 column을 일종의 ID로 생각한다. 그래서 여기에 등장한 unique ID의 종류(N개) 만큼으로 데이터의 row를 쪼개서 N개의 table로 나눈다, 이 N개 table의 row 길이를 모두 더하면 원래의 table과 동일하다.




# Partial sum for given index

이를 for문 없이 구현하는 방법은 두가지이다.

1. 해당 column을 우선 cum sum하고, 주어진 index의 cumsum값만 가져온다음 이를 diff


2. 1111112222333333 이런식으로 index 정보를 그룹 id 처럼 해석해서 모든 row마다 레이블링 컬럼을 추가한다음, groupby하면 n개의 table로 쪼개짐. 이 n개 table을 각각 sum하면됨

by 곽동현 이스텔리앙 2018.06.29 15:52
| 1 2 3 4 5 6 7 8 9 10 ··· 214 |