pandas 3

[NaN 데이터] isna(), dropna(), fillna(), notna()

(* df == dataframe 의 변수라고 가정) NaN 생성 import numpy as np np.nan NaN이 있는 지 확인 : 데이터가 비어있는 지 확인 df.isna() 컬럼별로 NaN 확인하는 방법 : 데이터 개수 파악 df.isna().sum() 데이터프레임 전체로 비어있는 항목의 개수를 알고 싶을때 df.isna().sum().sum() NaN을 처리 1. 삭제 1-1 NaN이 있는 행이 다 삭제 df.dropna() 1-2 NaN이 있는 열을 다 삭제 df.dropna(axis= 1) 2. 특정 값으로 채움 df.fillna( '채우려는 데이터' ) 2-1 앞의 행 데이터로 채움 df.fillna(method= 'ffill', axis= 0) 2-2 앞의 열 데이터로 채움 df.fi..

[데이터 삭제, 변경] drop(), rename(), set_index(), reset_index()

(* df == dataframe 의 변수라고 가정) 삭제 : 행삭제/인덱스, 열삭제/column 삭제 df.drop('변수이름' , axis= 0) df.drop('변수이름' , axis= 1) 이름 변경 : 사람용 인덱스, 컬럼 df.rename(index = { '변경 전 인덱스이름' : ' 변경 후 인덱스이름' } ) df.rename(columns = { '변경 전 컬럼이름' : ' 변경 후 컬럼이름' } ) 컬럼생성 : 새로운 컬럼을 만들고 데이터세팅하기(저장하기) df['새로운 컬럼 이름'] = '데이터' 변경 : 컬럼을 인덱스로 변경해서 저장 df = df.set_index('변경할 컬럼 이름') 또는 df.set_index('title', inplace = True) df.index = ..

[데이터 Access] df[], loc[], iloc[]/ df=pd.DataFrame()

(* df == dataframe 의 변수라고 가정) 불러오기 import pandas as pd 데이터 생성하기 : 판다스의 1차원 데이터를 Series(시리즈) 라고 부른다. 시리즈의 왼쪽부분을 index 라고 부른다. (리스트에서의 인덱스는 컴퓨터가 자동으로 매기는 인덱스) 판다스에서의 인덱스는 사람용 인덱스! 시리즈의 오른쪽 값들을 values 라고 부른다. np.array() pd.Series(data= data, index= index) Dataframe 만들기 df = pd.DataFrame(data= 행(데이터)의 변수들 , index= 열의 변수들) dict의 key= columns, values= index & data로 (* df == dataframe의 변수라고 가정) 데이터 acc..