그룹바이 함수로는 년단위, 월단위, 일단위, 시단위, 분단위, 초단위로의 데이터 통합은 할 수 없다.
따라서 먼저 Date컬럼을 인덱스로 만들어주면 resample함수를 통해서 이와같은 일들을 할 수가 있다.
chicago_df.index = pd.DatetimeIndex(chicago_df['Date']) # 기존 Date 컬럼은 그대로 두고 인덱스를 Date로 설정
chicago_df = chicago_df.set_index('Date') # 기존 Date컬럼은 삭제하고 인덱스를 Date로 변경함
데이터를 주기별로 분석
# resample 함수를 이용해서 날짜별로 범죄 건수를 세어보자.
# resamlpe 함수를 사용하려면 인덱스가 날짜 형식인 DatetimeIndex여야 한다.
df_day = chicago_df.resample('D').size()
plt.plot(df_day)
plt.show()

# resample 'Y' 는 년도다. 년도로 리샘플한 후, 각 년도별 몇개의 범죄 데이터를 가지고 있는지 확인한다.
df_year = chicago_df.resample('Y').size()
# 위의 데이터를 plot 으로 시각화 한다. 범죄횟수를 눈으로 확인하자.
plt.plot(df_year)
plt.show()
# 월별 범죄 발생 건수를 확인하자.
df_month = chicago_df.resample('M').size()
# 월별 범죄 발생 건수도 plot 으로 시각화 하자.
plt.plot(df_year)
plt.show()

# 분기별 범죄 건수도 확인하자.
df_q = chicago_df.resample('Q').size()
# 분기별 범죄 건수도 시각화 하자.
plt.plot(df_q)
plt.show()
chicago_df.resample('MS').size() # 그냥 쓰면 말일기준, S를 추가하면 첫일기준
chicago_prophet = chicago_df.resample('M').size()
반응형
'AI 이론 > Machine Learning' 카테고리의 다른 글
[prediction] Car_Purchasing_Data 실습 (0) | 2021.12.15 |
---|---|
XGBoost (0) | 2021.12.15 |
[머신러닝] 년월일시분초 문자열을 파이썬의 datetime64로 변경하는 법 (0) | 2021.11.29 |
error_bad_lines=False 파라미터 사용법 (0) | 2021.11.29 |
빅데이터 관련 홈페이지 모음 (0) | 2021.11.29 |