본문 바로가기

파이썬3/pandas

다양한 길이를 갖는 dictionary를 pd.dataframe으로 바꾸는 기능 1. 필요성 pandas에서는 dictionary를 dataframe으로 바꿔주는 기능이 이미 있지만 이것은 diconary의 개별 key값들이 갖는 item의 숫자가 동일해야하는 문제가 있다. 온라인에 공개된 method들은 key값이 column으로 가는 wide-form으로 된 것들이 많아 NaN이 생길수 밖에 없다. 이러한 문제를 해결하고자 long-form으로 만드는 간단한 python 기능을 만들었다. 2. 기능 설명 해당 기능은 먼저 wide-form으로 만든 후에 pands의 melt기능을 활용해서 long-form으로 만든 후 NaN들은 제거한다. 이 때 key값이나 index에는 NaN이 없어야 한다. def dict2df(x): ''' x : dictionary ''' x1=pd.Da.. 더보기
pd.read_csv 빠르게 하는 법 pip install pyarrow pd.read_csv('csv파일', engine='pyarrow') 더보기
pandas apply axis 방향 pandas를 다루면 axis의 방향은 늘 헷갈린다. pandas 홈페이지의 apply에대한 설명을보면 axis에 대해 아래와 같이 되어 있다. 즉 위의 내용에 따르면, axis를 0 (index)으로 하면 column별로 연산이 적용되고 axis를 1 (column)으로 하면 row별로 연산이 적용되게 만들었다. 아래의 그림은 pandas의 axis별 연산이 어떻게 들어가는지에 대한 표이다. axis=0일 때는 R에서 colSum, colMean과 같이 column-wise 연산이 들어가는 것이고 axis=1일 때는 R에서 rowSum, rowMean과 같이 row-wise 연산이 들어가는 것이다. 더보기
판다스 텍스트로 행 (row) 늘리기 df["기존열"]=df["기존열"].str.split("나누려는_문자") 더보기