목록Python (138)
군침이 싹 도는 코딩
위 데이터 프레임으로 NaN 처리 방법을 알아보자 비어있는 데이터가 어디에 몇개가 있는지 알아보는법 df.isna().sum() >>> bikes 0 pants 0 watches 0 shirts 1 shoes 0 suits 1 glasses 1 dtype: int64 df.isna().sum().sum() >>> 3 # isna() 함수를 통해 비어 있는 데이터가 있는지 확인할수있다 그 후에 sum() 함수를 사용하면 컬럼별 비어있는 데이터 갯수를 알려주며 한번 더 사용하면 총합을 알려준다. 반대로 데이터가 있는곳을 물어볼수도있다 #이때는 notna() 를 사용 NaN 을 삭제하는법 # dropna() 함수를 사용해 비어 있는 데이터가 있는 행을 모두 삭제한다 특정값으로 채우는법 # fillna()함수를..
csv 파일을 불러오는법 reviews=pd.read_csv('../data/winemag-data_first150k.csv',index_col=0) # index_col=0 은 unnamed:0라는 인덱스로 사용되던것이 컬럼 자리에 올라가 있는것을 없애주는것 데이터 프레임의 윗부분부터 보는법 reviews.head() # head() 라는 함수를 쓰며 안에 파라미터값을 넣으면 해당값만큼 아니면 5개를 디폴트로 보여준다 데이터 프레임의 뒷부분부터 보는법 reviews.tail() # tail() 라는 함수를 쓰며 안에 파라미터값을 넣으면 해당값만큼 아니면 5개를 디폴트로 보여준다 데이터 프레임의 숫자데이터의 통계를 보는법 reviews.describe() # count 는 비어있는 데이터를 제외한 갯수 ..
판다스 데이터 프레임에서 컬럼을 추가하는법 df >>> bikes pants watches glasses shirts suits store 1 20 30 35 NaN 15 45 store 2 15 5 20 50.0 2 7 new_item=[{'bikes':20,'pants':30,'watches':35,'glasses':4}] new_store=pd.DataFrame(data=new_item,index=['store 3']) df=df.append(new_store) df >>> bikes pants watches glasses shirts suits store 1 20 30 35 NaN 15 45 store 2 15 5 20 50.0 2 7 store 3 20 30 35 4.0 NaN NaN # app..
판다스의 데이터 값 수정 방법 df >>> bikes pants watches glasses store 1 20 30 35 NaN store 2 15 5 10 50.0 df.loc['store 2','watches'] = 20 df >>> bikes pants watches glasses store 1 20 30 35 NaN store 2 15 5 20 50.0 ## 기호( = ) 기준으로 왼쪽에는 데이터 억세스 오른쪽에는 저장할값을 넣는다. 판다스에 새 컬럼을 넣는법 df >>> bikes pants watches glasses store 1 20 30 35 NaN store 2 15 5 20 50.0 # shirts 라는 컬럼을 만들고 , store 1 에는 15개 store 2 에는 2개 df['s..
판다스의 2차원 데이터 처리는 데이터 프레임(DF)로 한다 데이터 분석에서는 csv 파일을 판다스의 데이터프레임으로 읽어와서 작업한다 import pandas as pd # We create a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])} 왼쪽의 행부분의 진한 글씨는 인덱스 윗쪽의 열부분의 진한 글씨는 컬럼 안쪽에 있는 데이터는 values 라고한다 데이터 프레임 데이터 타입별로 불..
pandas Series 연산 index = ['apples', 'oranges', 'bananas'] data = [10, 6, 3,] frults=pd.Series(data=data,index=index) frults >>> apples 10 oranges 6 bananas 3 dtype: int64 # 전체 5개씩 증가되었다. frults+5 >>> apples 15 oranges 11 bananas 8 dtype: int64 # 오렌지가 2개 팔렸다 frults['oranges']-2 >>> apples 15 oranges 9 bananas 8 dtype: int64 # 사과랑 바나나가 3개씩 팔렸다. frults[['apples','bananas']] - 3 # 두개 이상일 경우 안에 리스트를 ..
Pandas 의 장점 기본적인 통계데이터 제공 NaN values 를 알아서 처리함. 숫자 문자열을 알아서 로드함. 데이터셋들을 merge 할 수 있음. Pandas Series 데이터 생성 index = ['eggs', 'apples', 'milk', 'bread'] data = [30, 6, 'Yes', 'No'] import pandas as pd grocerles=pd.Series(data=data,index=index) # grocerles >>> eggs 30 apples 6 milk Yes bread No dtype: object Pandas Series 데이터 확인법 grocerles >>> eggs 30 apples 6 milk Yes bread No dtype: object # 인덱스를..
● 1차원 데이터(벡터)를 억세스하는법 x >>> array([83, 40, 73, 54, 31, 76, 91, 39, 90, 25]) x[2] >>> 73 ● 2차원 데이터(행렬)를 억세스하는법 X >>> array([[13, 22, 49, 42, 80], [91, 63, 58, 20, 34], [60, 40, 16, 37, 66], [ 2, 44, 16, 87, 84]]) X[1][2] >>> 58 ● 1차원 데이터(벡터)를 슬라이싱 하는법 x >>> array([83, 40, 73, 54, 31, 76, 91, 39, 90, 25]) x[2:6+1] >>> array([73, 54, 31, 76, 91]) ● 2차원 데이터(행렬)를 슬라이싱 하는법 X >>> array([[13, 22, 49, 42..