Python 문법 39

[Dates and times](1) : NumPy's datetime64

Typed arrays of times: NumPy's datetime64 기존의 파이썬 datetime 을 보강하기 위해, date의 array도 처리할 수 있게 numpy 에서 64-bit 로 처리하도록 라이브러리를 강화했음. #넘파이의 datetime64는 날짜 연산 + - 가 된다. 파이썬에서 기본으로 제공하는 datetime은 + - 연산이 안된다. import numpy as np any_date = np.array('2020-11-19') any_date array('2020-11-19', dtype='

Python 문법/Numpy 2021.11.23

[상관관계차트] sb의 heatmap() 함수로 비율 비교

# 데이터 프레임의 수치를 바로 색깔의 진하기로 변경하는 히트맵 # seaborn의 heatmap 함수를 이용한다. sb.heatmap(data= df1) plt.show() red를 purpl로 색상 변경 sb.heatmap(data= df1, cmap= 'RdPu') plt.show() 숫자추가 sb.heatmap(data= df1, cmap= 'RdPu',annot=True) plt.show() 소수점 1자리로 변경 sb.heatmap(data= df1, cmap= 'RdPu',annot=True, fmt='.1f') plt.show() 간격조절 sb.heatmap(data= df1, cmap= 'RdPu',annot=True, fmt='.1f', linewidths=0.8) plt.show() 사..

[데이터 정렬] sort_values() / sort(), sorted() 함수

데이터프레임 정렬 오름차순 정렬 df.sort_values('정렬할 기준의 컬럼') 내림차순 정렬 df.sort_values('정렬할 기준의 컬럼', ascending=False) 정렬하고 데이터 엑세스하기 df.sort_values('정렬할 기준의 컬럼', ascending=False).loc[ : , : ] 리스트 정렬 sorted(정렬할 데이터) sorted(정렬할 데이터, reverse 파라미터) sorted(정렬할 데이터, key 파라미터) sorted(정렬할 데이터, key 파라미터, reverse 파라미터) 리스트.sort()와 sorted(리스트)의 가장 큰 차이는 리스트.sort() 는 원본 리스트 자체를 정렬해서 변환하는 것이고, sorted(리스트) 는 원본 리스트는 변경없이, 정렬한..

[상관관계차트] sb의 pairplot() 함수로 연관성확인

sb.pairplot(data=sb) plt.show() 또는 sb.pairplot(data=sb, vars=[비교할 컬럼들]) plt.show() (예시) sb.pairplot(data=crime_anal[['강도', '살인', '폭력']]) plt.show() regression : 선추가 sb.pairplot(data=crime_anal[['강도', '살인', '폭력']], kind='reg') plt.show() crime_anal[['강도', '살인', '폭력']].corr() sb.pairplot(data= , x_vars= , y_vars= , kind='reg') plt.show()

[상관관계차트] plot(), .sort_values().plot() 그래프로 컬럼의 데이터 비교

데이터프레임의 plot 함수는 x축에는 인덱스를 y축에는 컬럼의 값을 세팅한다. plt.plot(df) plt.show() df.plot() plt.show() bar로 표현 df['가져올 컬럼'].plot(kind='bar') plt.show() 수평으로 변경 df['가져올컬럼'].plot(kind='barh') plt.show() 사이즈변경 plt.figure(figsize =(10, 8)) df['가져올컬럼'].plot(kind='barh') plt.show() 정렬해서 그리기 df['가져올컬럼'].sort_values().plot(kind='bar') plt.show() 오름차순으로 정렬해서 그리기 df['가져올컬럼'].sort_values(ascending=False).plot(kind='bar..

[Matplotlib] plot(), countplot(), pie(), hist(), subplot()

함수를 사용해서 그래프 영역을 만들고, 몇 개의 선을 표현하고, 레이블로 꾸미는 등의 일을 할 수 있습니다. import matplotlib.pyplot as plt import numpy as np x = np.arange(0, 10, 0.2) y = 2* x plt.plot(x, y) plt.show() Matplotlib Seaborn # 카테고리 별로 데이터가 얼마나 있는지 차트로 표시 sb.countplot(data= , x= ' ') plt.show() Matplotlib 색 지정하기 sb.color_palette()[색 인덱스] base_color = sb.color_palette()[] sb.countplot(data= df, x= 'generation_id', color=base_colo..

[Categorical 데이터분석] describe(), nunique(), unique(), groupby(), value_counts()

(* df == dataframe 의 변수라고 가정) 데이터정보확인 함수들 df.describe() : 숫자들로만 이루어진 통계 데이터를 보여주는 함수(문자열 컬럼은 각각 해당 컬럼에 숫자데이터를 describe 해준다.) df.median() : 중앙값(50%) - 대략적으로 df.info() : 컬럼정보들로 데이터 분석 # 데이터프레임에 object는 문자열 카테고리컬 데이터 (Categorical data) df['컬럼이름'].nunique() : 공통되는 데이터들의 개수를 확인하는 함수 df['컬럼이름'].unique() : 내용확인 df['변수이름'].value_counts() : 카테고리컬 데이터의 개수를 세어주는 함수 df.groupby('묶을 컬럼')['저리할 컬럼'].처리할함수 : 카테고..