목록Python (138)
군침이 싹 도는 코딩

히스토그램 히스토그램이란 구간을 설정하여 해당 구군에 포함되는 데이터가 몇개인지를 세는 차트를 히스토그램이라고한다 구간을 bin 이라고 하며 여러개의 구간이 있으므로 bins라고 한다 히스토그램은 똑같은 데이터를 가지고 bin 의 값을 조정하기때문에 차트 모양이 각기 달라 해석이 달라질수있다 해당 데이터 프레임부분의 스피드 컬럼 부분으로 히스토그램을 만들어보자 plt.hist(data=df,x='speed') plt.show() # bins 의 기본 갯수는 10개이다 bins 의 갯수나 범위를 변경하는법 plt.hist(data=df,x='speed',rwidth=0.8,bins=30) plt.show() # rwidth는 그래프 사이의 폭을 떨어트릴수있다 bins를 사용하여 그래프의 갯수를 조절할수있다..

Matplotlib 은 차트를 만들수있다 해당 데이터프레임으로 차트를 만들어보자 Bar chart 사용법 sb.countplot(data=데이터프레임 x= x축이될 컬럼 color= 바꾸고 싶은 색깔 order= 지시사항) sb.countplot(data=df, x='generation_id') plt.show() # 쇼함수는 메모리에 저장된값을 제거해준다 # 카테고리컬 데이터인 제너레이션 아이디 컬럼을 가져와 차트로 만들었다 카운터플롯을 사용하면 자동으로 갯수를 세서 다 가져온다 sb.color_palette() # 차트 색깔을 보는법 base_color=sb.color_palette()[2] # 초록색으로 지정 base_order=df['generation_id'].value_counts().inde..

데이터프레임을 합치는 함수 컨캣과 멀지를 알아보자 컨캣은 컬럼 이름이 모두 같으면 갯수제한없이 데이터프레임을 하나로 합쳐준다 멀지는 두 데이터 프레임에 공통 컬럼이 있으면 그 컬럼을 기준으로 하나로 합쳐준다 멀지는 두개의 데이터 프레임만 합칠수 있다. 또한 멀지는 기준이되는 컬럼에 공통된 데이터만 가져온다. 컨캣으로 합치기 사용법 pd.concat([df1,df2,df3''''']) pd.concat([df1,df2]) pd.concat([df1,df2,df3]) # 3개의 데이터 프레임의 컬럼이 모두 같기때문에 컴캣으로 합쳐준다 멀지로 합치는법 사용법 pd.concat([df1,df2,on=기준이되는컬럼,how=left or right]) df_all=pd.concat([df_Engineering_de..

데이터 프레임에서 특정 문자가 들어있는곳을 찾으려면 문자열 함수중에 contains를 사용하면 bool 로 보여준다 사용법 df[col].str.contains(찾을단어) reviews['description'].str.contains('tropical') >>> 0 True 1 False 2 False 3 False 4 False ... 129966 False 129967 False 129968 False 129969 False 129970 False Name: description, Length: 129971, dtype: bool

판다스에서 컬럼을 오름차순으로 정렬하는 법은 sort_values() 를 사용한다 내림차순으로 정렬하고싶다면 ascending=False를 써주면 된다. 사용법 데이터프레임.sort_values(정렬하고싶은 컬럼의 이름,ascending) # ascending 의 디폴트는 True (오름차순) 이며 False (내림차순) 이라고 입력하면 내림차순이 된다 # 정렬하고 싶은 컬럼이 복수일경우 리스트를 사용한다 # 각 컬럼별로 오름차순 내림차순을 따로 하고싶다면 어센딩도 리스트를 사용한다 ex) 데이터프레임.sort_values([컬럼1,컬럼2],ascending=[True,False]) 경력으로 오름차순 df.sort_values('Years of Experience') 경력으로 내림차순 df.sort_va..

이 데이터 프레임을 통해 어플라이의 기능들을 살펴보자 어플라이는 판다스안에 있는 데이터에 함수를 사용하고싶을때 쓴다 특히 파이썬의 함수가 아닌 def를 통해 만든 함수를 사용할때 유용하다 사용법 데이터 억세스.apply(쓰고싶은함수) # 이때 함수옆에 소괄호는 쓰지않는다 # 직원의 이름 글자수를 알아내어 length 라는 컬럼에 저장해보자 df['length']=df['Employee Name'].apply(len) # 직원 이름을 전부 대문자로바꿔서 upper_name 이라는 컬럼에 저장해보자 df['Employee Name'].apply(upper) >>> NameError: name 'upper' is not defined # 이때 어플라이를 사용하면 에러가 발생한다 이유는 어플라이는 파이썬의 함수..

해당 데이터프레임을 가지고 운용을 해보겠다 # 경력이 3년 이상인 사람의 데이터만 가져오시오 df.loc[df['Years of Experience']>=3,] # iloc로는 안된다 # loc를 이용해서 경력이 3년이상인 사람을 불러왔다 사용법은 loc[행 인덱싱값, 열 인덱싱값] # 경력이 3년이상인 사람의 이름과 시급정보를 가져오시오 df.loc[df['Years of Experience']>=3,'Employee Name':'Salary [$/h]'] # 경력이 4년이상 8년 이하인 사람의 데이터를 가져오시오 df.loc[(df['Years of Experience']>=4)& (df['Years of Experience']

카테고리컬 데이터란 같은 컬럼안에 중복된 데이터가 있는것을 말한다 해당 카테고리컬 데이터를 분석해보자 카테고리컬 데이터에서 칼럼 중복 제거 하는법 df['Year'].unique() # 중복 제거 >>> array([1990, 1991, 1992], dtype=int64) df['Year'].nunique() # 중복 제거후 갯수 >>> 3 # unique() 함수를 이용해 중복된 항목을 제거하고 보여준다. 제거후 갯수만 보고싶으면 앞에 n 을 붙여 nunique를 쓴다 숫자데이터의 통계를 확인하는법 # describe() 함수를 사용해 알수있다 여기서 표기되는것은 숫자데이터만이다 문자열에 describe() 함수를 사용할 경우 df['Name'].describe() >>> count 9 unique 3..