군침이 싹 도는 코딩

Item based collaborative filltering 을 하기위해 데이터프레임의 corr 함수를 이용해 correlation 과 min_periods 파라미터 사용법 본문

Python/Pandas

Item based collaborative filltering 을 하기위해 데이터프레임의 corr 함수를 이용해 correlation 과 min_periods 파라미터 사용법

mugoori 2023. 1. 3. 12:47
corr_titanic = df.corrwith( df['Titanic (1997)'] ).to_frame()

# Item based collaborative filltering 을 하기 위해서는 먼저 상관관계를 분석해야 한다

먼저 분석하고싶은 영화의 컬럼을 넣어 corrwith로 전체 컬럼과 상관관계를 분석한다

그다음 그것을 데이터 프레임으로 만들어준다

 

 

 

 

corr_titanic.columns = ['correlation']

# 컬럼의 이름을 correlation으로 고쳐주도록 한다

 

 

 

 

corr_titanic = corr_titanic.join(ratings_mean_count_df['count'])

#  조인함수를 통해 영화 별점의 갯수를 가진 테이블과 붙여준다

 

 

 

 

corr_titanic.dropna(inplace=True)

# dropna 를 통해 빈 데이터를 삭제해준다

 

 

 

 

 

corr_titanic.sort_values('correlation', ascending=False)

# 상관관계가 높은것부터 정렬해준다 이러면 correlation은 끝이난다

 

 

 

 

 

corr_movie = df.corr( min_periods=80 )

# 상관관계를 구할때 민 페리어드라는 파라미터가 있다

이것은 해당 파라미터에 주는값보다 많은 데이터를 가지고있는 컬럼만을 가져오라는 뜻인데

이것은 예를들어 영화 추천 시스템을 만들때 별점을 5점 준 사람이 적은데 이것의 상관관계가 높다면

이것은 신뢰할만한 데이터가 아니므로 최소치를 지정해주는것이다