(* df == dataframe 의 변수라고 가정)
데이터정보확인 함수들
df.describe() : 숫자들로만 이루어진 통계 데이터를 보여주는 함수(문자열 컬럼은 각각 해당 컬럼에 숫자데이터를 describe 해준다.)
df.median() : 중앙값(50%) - 대략적으로
df.info() : 컬럼정보들로 데이터 분석
# 데이터프레임에 object는 문자열
카테고리컬 데이터 (Categorical data)
df['컬럼이름'].nunique() : 공통되는 데이터들의 개수를 확인하는 함수
df['컬럼이름'].unique() : 내용확인
df['변수이름'].value_counts() : 카테고리컬 데이터의 개수를 세어주는 함수
df.groupby('묶을 컬럼')['저리할 컬럼'].처리할함수 : 카테고리컬 데이터의 각 데이터 별로 묶어서 처리하는 함수
df.groupby('묶을 컬럼')['저리할 컬럼'].agg([np.함수1, np.함수2]) : 처리할 함수가 두개일때
반응형
'Python 문법 > Pandas_데이터처리' 카테고리의 다른 글
[csv파일 코딩] pd.read_csv(), .to_csv() (0) | 2021.11.22 |
---|---|
[상관관계 함수] corr() (0) | 2021.11.22 |
[NaN 데이터] isna(), dropna(), fillna(), notna() (0) | 2021.11.17 |
[데이터 삭제, 변경] drop(), rename(), set_index(), reset_index() (0) | 2021.11.17 |
[데이터 Access] df[], loc[], iloc[]/ df=pd.DataFrame() (0) | 2021.11.16 |