목록전체 글 (303)
군침이 싹 도는 코딩
판다스의 문자열을 슬라이싱하기 위해서는 str을 사용하여야 한다. 그렇지 않으면 슬라이싱이 정상적으로 되지않는다. df[컬럼].str[:] 판다스의 시리즈를 데이터 프레임으로 만들때는 to_frame() 을 쓰면 된다 변수.to_frame()
csv 파일을 불러올때 데이터프레임 안에 콤마가 있다면 그것을 문자열로 인식해 차트를 만들때 문제가 발생한다 이것을 해결하기위해 불러올때 thousands=','를 사용한다 이것을 사용하면 데이터 프레임안에 천의 자리마다 들어있는 콤마를 빼줘서 숫자로 인식하게된다 df=pd.read_csv('../data/age.csv',encoding='cp949',thousands=',')

히트맵은 스케터로 시각화한 자료가 한군데 뭉쳐있다면 보기 힘드므로 이것의 밀도를 알수있게 해주는것이다. 이 데이터 프레임으로 히트맵을 만들어보자 plt.hist2d(data=df,x='displ',y='comb',cmin=0.5,cmap='viridis_r',bins=20) plt.colorbar() plt.title('배기량과 연비관계') plt.xlabel('Dsplacement (L)') plt.ylabel('연비 (mpg)') plt.savefig('차트1.png') plt.show() # plt.hist2d로 히트맵을 만들수있다 xy에 각 컬럼을 넣는다 cmap은 리버스로하면 데이터가 많을수록 진하게 적을수록 연하게 한다 cmin은 데이터가 없는 부분을 안보이게 만들었다 이것또한 히스토그램이므로..

스케터 플롯이란 두 컬럼간의 비례 반비례 관계없음을 시각적으로 표현해주는것이다. 이 데이터 프레임으로 스케터를 만들어보자 1. 배기량(displ)과 연비(comb)의 상관관계를 scatter로 분석하기 plt.scatter(data=df,x='displ',y='comb') plt.title('Displ Vs Comb') plt.xlabel('Displacement (L)') plt.ylabel('Combined Fuel Eff (mpg)') plt.show() # plt.scatter를 쓴 후 데이터에 데이터프레임이름 x와y에 각 컬럼의 이름을 넣어준다 plt.title은 제목을 붙일수있다 plt.xlabel은 x의 제목을 붙여준다 plt.ylabel은 y의 제목을 붙여준다 두 컬럼의 상관계수를 가져오는..

# 하나에 여러개의 plot을 그린다. plt.figure(figsize=(12,5)) # 그래프의 가로 세로 조절 plt.subplot(1,2,1) # 1행 2열 첫번째 차트 plt.title('speed hist. bins 10') plt.xlabel('speed') plt.ylabel('# of Characters') plt.hist(data=df,x='speed',rwidth=0.8) plt.subplot(1,2,2) # 1행 2열 두번째 차트 plt.title('speed hist. bins 30') plt.xlabel('speed') plt.ylabel('# of Characters') plt.hist(data=df,x='speed',rwidth=0.8,bins=30) plt.show() # ..

히스토그램 히스토그램이란 구간을 설정하여 해당 구군에 포함되는 데이터가 몇개인지를 세는 차트를 히스토그램이라고한다 구간을 bin 이라고 하며 여러개의 구간이 있으므로 bins라고 한다 히스토그램은 똑같은 데이터를 가지고 bin 의 값을 조정하기때문에 차트 모양이 각기 달라 해석이 달라질수있다 해당 데이터 프레임부분의 스피드 컬럼 부분으로 히스토그램을 만들어보자 plt.hist(data=df,x='speed') plt.show() # bins 의 기본 갯수는 10개이다 bins 의 갯수나 범위를 변경하는법 plt.hist(data=df,x='speed',rwidth=0.8,bins=30) plt.show() # rwidth는 그래프 사이의 폭을 떨어트릴수있다 bins를 사용하여 그래프의 갯수를 조절할수있다..

Matplotlib 은 차트를 만들수있다 해당 데이터프레임으로 차트를 만들어보자 Bar chart 사용법 sb.countplot(data=데이터프레임 x= x축이될 컬럼 color= 바꾸고 싶은 색깔 order= 지시사항) sb.countplot(data=df, x='generation_id') plt.show() # 쇼함수는 메모리에 저장된값을 제거해준다 # 카테고리컬 데이터인 제너레이션 아이디 컬럼을 가져와 차트로 만들었다 카운터플롯을 사용하면 자동으로 갯수를 세서 다 가져온다 sb.color_palette() # 차트 색깔을 보는법 base_color=sb.color_palette()[2] # 초록색으로 지정 base_order=df['generation_id'].value_counts().inde..

데이터프레임을 합치는 함수 컨캣과 멀지를 알아보자 컨캣은 컬럼 이름이 모두 같으면 갯수제한없이 데이터프레임을 하나로 합쳐준다 멀지는 두 데이터 프레임에 공통 컬럼이 있으면 그 컬럼을 기준으로 하나로 합쳐준다 멀지는 두개의 데이터 프레임만 합칠수 있다. 또한 멀지는 기준이되는 컬럼에 공통된 데이터만 가져온다. 컨캣으로 합치기 사용법 pd.concat([df1,df2,df3''''']) pd.concat([df1,df2]) pd.concat([df1,df2,df3]) # 3개의 데이터 프레임의 컬럼이 모두 같기때문에 컴캣으로 합쳐준다 멀지로 합치는법 사용법 pd.concat([df1,df2,on=기준이되는컬럼,how=left or right]) df_all=pd.concat([df_Engineering_de..