결측치 처리

AI/DataAnalysis

결측치 처리

oaho 2023. 2. 20. 11:57

1. 불필요한 변수 지우기

drop_cols = ['Cabin', 'PassengerId', 'Name', 'Ticket']
titanic.drop(drop_cols, axis=1, inplace=True)

2. NaN삭제 ( .dropna )

titanic.dropna(axis=0, inplace=True)

3. 일부 행 지우기 (subset=['열'])

titanic.dropna(subset=['Age'], axis=0, inplace=True)

4. NaN채우기 ( fillna )

1) 평균값으로 채우기

mean_age = titanic['Age'].mean()

titanic['Age'].fillna(mean_age, inplace=True)

2) 최빈값으로 채우기

titanic['Embarked'].fillna('S', inplace=True)

5. 앞/뒤 값으로 채우기 ( method='ffill', method='bfill' )

# Ozone 변수 NaN 값을 바로 앞의 값으로 채우기
air['Ozone'].fillna(method='ffill', inplace=True)

# Solar.R 변수 NaN 값을 바로 뒤의 값으로 채우기
air['Solar.R'].fillna(method='bfill', inplace=True)

6. 선형 보간법으로 채우기( .interpolate(method='linear') )

# 선형 보간법으로 채우리
air['Ozone'].interpolate(method='linear', inplace=True)

# Solar.R 변수 NaN 값을 바로 뒤의 값으로 채우기
air['Solar.R'].interpolate(method='linear', inplace=True)

7. 불필요한 값을 NaN으로 처리

예를들어 "_"를 NaN으로 처리

df.replace("_", np.NaN, inplace=True)

,지우고 숫자형으로 변경

usd_df['usd'] = usd_df['ClosePrice'].apply(lambda data: float(data.replace(',','')))

=> lambda

람다 사용하지 않을경우 -> 저장공간 3칸 사용

람다 사용할 경우 -> 저장공간 1칸 사용

'AI > DataAnalysis' 카테고리의 다른 글

데이터프레임의 데이터 결측치 처리 (0)	2023.04.11
데이터프레임의 데이터의 구성 확인하기 (0)	2023.04.11
Python_웹 크롤링 (0)	2023.02.20
Python_이변량분석 (0)	2023.02.15
Python_시계열 데이터, 시각화라이브러리 (0)	2023.02.09

현재글결측치 처리

공부기록 👩🏻‍💻📒✏️📚📝📙

HTML모달창, 데이터분석, 코딩테스트, 쿠버네티스, 프로그래머스, 딥러닝, 원핫인코딩, 머신러닝 전처리, CNN, BAEKJOON, sigmoid, 지도학습과 비지도학습, 텍스트전처리, 머신러닝, 회귀모델성능평가, 제조ai, 회귀모델, 백준, 제조데이터, 선형회귀,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

코딩하는 짱구