AI 이론/Machine Learning

[머신러닝] resample() 함수를 이용해서 데이터 분석하는 방법

jasonshin 2021. 11. 29. 17:37
그룹바이 함수로는 년단위, 월단위, 일단위, 시단위, 분단위, 초단위로의 데이터 통합은 할 수 없다.
따라서 먼저 Date컬럼을 인덱스로 만들어주면 resample함수를 통해서 이와같은 일들을 할 수가 있다. 

 

chicago_df.index = pd.DatetimeIndex(chicago_df['Date'])  # 기존 Date 컬럼은 그대로 두고 인덱스를 Date로 설정

 
chicago_df = chicago_df.set_index('Date'# 기존 Date컬럼은 삭제하고 인덱스를 Date로 변경함

 

데이터를 주기별로 분석

# resample 함수를 이용해서 날짜별로 범죄 건수를 세어보자. 

# resamlpe 함수를 사용하려면 인덱스가 날짜 형식인 DatetimeIndex여야 한다.

df_day = chicago_df.resample('D').size()
plt.plot(df_day)
plt.show()
# resample  'Y' 는 년도다. 년도로 리샘플한 후, 각 년도별 몇개의 범죄 데이터를 가지고 있는지 확인한다.
df_year = chicago_df.resample('Y').size()
# 위의 데이터를 plot 으로 시각화 한다. 범죄횟수를 눈으로 확인하자.
plt.plot(df_year)
plt.show()

# 월별 범죄 발생 건수를 확인하자.
df_month = chicago_df.resample('M').size()
# 월별 범죄 발생 건수도 plot 으로 시각화 하자.
plt.plot(df_year)
plt.show()
# 분기별 범죄 건수도 확인하자.
df_q = chicago_df.resample('Q').size()
# 분기별 범죄 건수도 시각화 하자.
plt.plot(df_q)
plt.show()

chicago_df.resample('MS').size() # 그냥 쓰면 말일기준, S를 추가하면 첫일기준
chicago_prophet =  chicago_df.resample('M').size()
반응형