Python 문법/Pandas_데이터처리

[데이터 Access] df[], loc[], iloc[]/ df=pd.DataFrame()

jasonshin 2021. 11. 16. 18:14

(* df == dataframe 의 변수라고 가정)

 

불러오기
import pandas as pd

데이터 생성하기 :

판다스의 1차원 데이터를 Series(시리즈) 라고 부른다. 

시리즈의 왼쪽부분을 index 라고 부른다.

(리스트에서의 인덱스는 컴퓨터가 자동으로 매기는 인덱스)
판다스에서의 인덱스는 사람용 인덱스! 

시리즈의 오른쪽 값들을 values 라고 부른다. 

np.array()

pd.Series(data= data, index= index)

 

Dataframe 만들기

df = pd.DataFrame(data= 행(데이터)의 변수들 , index= 열의 변수들)

dict의 key= columns, values= index & data로 
(* df == dataframe의 변수라고 가정)


데이터 access 하기
1. columns 값을 가져오는 방법 (column access)
df[ 'column' ]

2. 행과 열의 이름 정보로 데이터를 가져오는 방법 (1)
df.loc['행 이름'  , '열 이름'] - 진한글씨의 사람용 이름

3. 행과 열의 인덱스 정보로 데이터를 가져오는 방법 (2)
df.iloc[ 행 인덱스  , 열 인덱스]

 

(예)

경력이 3년 이상인 사람의 데이터(행을 가져와라)를 가져와라
df['Years of Experience'] >= 3
df.loc[df['Years of Experience'] >= 3,  ]

 

(예2)

df['Salary [$/h]'].max()
df['Salary [$/h]'] == df['Salary [$/h]'].max()
df.loc[df['Salary [$/h]'] == df['Salary [$/h]'].max() ,  'Employee Name'  ]

 

 

# 판다스에서 dtype: object 이면 문자열, dtype='int64' 이면 숫자이다. 
 

df.index

-----

?
변수.loc[ '행 이름' ][ '열 이름' ]
변수.loc[ '행 이름' ][ 열 인덱스 ]  

 

pop_Seoul.columns

 

컬럼 전체 이름 변경

pop_Seoul.columns = [ '변경할이름의 리스트' ]

반응형