군침이 싹 도는 코딩
Item based collaborative filltering 을 하기위해 데이터프레임의 corr 함수를 이용해 correlation 과 min_periods 파라미터 사용법 본문
Python/Pandas
Item based collaborative filltering 을 하기위해 데이터프레임의 corr 함수를 이용해 correlation 과 min_periods 파라미터 사용법
mugoori 2023. 1. 3. 12:47corr_titanic = df.corrwith( df['Titanic (1997)'] ).to_frame()
# Item based collaborative filltering 을 하기 위해서는 먼저 상관관계를 분석해야 한다
먼저 분석하고싶은 영화의 컬럼을 넣어 corrwith로 전체 컬럼과 상관관계를 분석한다
그다음 그것을 데이터 프레임으로 만들어준다
corr_titanic.columns = ['correlation']
# 컬럼의 이름을 correlation으로 고쳐주도록 한다
corr_titanic = corr_titanic.join(ratings_mean_count_df['count'])
# 조인함수를 통해 영화 별점의 갯수를 가진 테이블과 붙여준다
corr_titanic.dropna(inplace=True)
# dropna 를 통해 빈 데이터를 삭제해준다
corr_titanic.sort_values('correlation', ascending=False)
# 상관관계가 높은것부터 정렬해준다 이러면 correlation은 끝이난다
corr_movie = df.corr( min_periods=80 )
# 상관관계를 구할때 민 페리어드라는 파라미터가 있다
이것은 해당 파라미터에 주는값보다 많은 데이터를 가지고있는 컬럼만을 가져오라는 뜻인데
이것은 예를들어 영화 추천 시스템을 만들때 별점을 5점 준 사람이 적은데 이것의 상관관계가 높다면
이것은 신뢰할만한 데이터가 아니므로 최소치를 지정해주는것이다
'Python > Pandas' 카테고리의 다른 글
resample 함수의 사용법과 인덱스 설정법 (0) | 2023.01.03 |
---|---|
추천 영화 작업 자동화 파이프라인 (0) | 2023.01.03 |
Pandas pivot_table 함수 사용법 (0) | 2023.01.03 |
Python pandas 날짜 처리 (datetime) (0) | 2022.11.30 |
Python pandas 문자열 슬라이싱/ 시리즈 데이터 프레임으로 만들기 (0) | 2022.11.30 |