Python

[JupyterNotebook]열 필터링 및 결측값 처리

meister9701 2024. 10. 24. 10:54

데이터를 필터링하여 특정 열을 가져올 수 있다.

특정 열 및 특정 문자가 들어간 열 필터링

특정 열을 지정해서 필터링하거나 특정 문자열이 포함된 열을 필터링할 수 있다.

결측값 확인방법

결측값이 있는 모든행을 isnull과 any를이용하여 결측값이 있다면 True로 반환해준다.

그것을 이용해서 True 결과값만을 가지는 모든 열을 반환하도록하여 결측값이 있는 모든 열을 받아올 수 있다.

결측값이 존재하는 모든 행은 axis=1를 이용하여 추출이 가능하다.

sum을 통해 결측값을 모두 더해 열마다 결측값이 얼마나 많은지도 확인이 가능하다.

특정 열에서 결측값과 범주 확인 방법

dropna를 이용하여 value_counts에 결측값을 추가 가능하다

결측값 보정

결측값은 보정이 가능하다.

특정 배열을 가진 빈 칸, 선형데이터 빈 칸 및 점수 결측치 등은 배열, 선형데이터의 중간값, 0점처리등 다양한 방법으로 결측치를 변경하는 것이 가능하다.

ffill은 이전값으로 결측치를 보정, bfill은 이후값으로 결측치를 보정해준다.

interpolate를 이용하여 선형데이터에서 보간을 하는 방법도 있다.

빈 칸을 특정 점수로 보정하고 싶다면 fillna(숫자)를 이용하여 그 숫자로 보정할 수 있다.

결측값을 가진 행 또는 열 삭제

결측값을 가진 행 또는 열을 삭제할 수 있다.

결측값이 포함되어있는 모든 행 또는 열을 삭제하는 방법이다.