Python

[JupyterNotebook] 중복 데이터

meister9701 2024. 11. 1. 10:34

중복데이터의 발견 및 삭제 방법

중복데이터가 들어가있는 데이터 프레임

우선 중복데이터가 들어가있는 데이터 프레임을 하나 생성하였다.

중복값을 찾는 방법

중복값은 duplicated를 이용하면 찾을 수 있다.

기본적으로 모든 값이 같아야 중복값으로 체크하고, 특정 열만 기준으로 중복값을 잡고싶다면 duplicated(subset="[]")을 이용해야한다.

중복값 행데이터를 전부 보고싶다면 다시 데이터 프레임처럼 만들어서 볼 수 있다.

df[df.duplicated]를 사용하면 True인 값을 반환하므로 두번째부터 나타나는 중복데이터를 데이터프레임으로 볼 수 있다.

원본까지 보고싶다면 keep=False를 이용하여 원본데이터도 볼 수 있다.

중복값 삭제 방법

중복값은 drop_duplicated로 삭제할 수 있다.

이 때 중복된 값들 중 하나만 남기고 나머지가 제거된다.

기본적으로 원본 데이터가 바뀌지 않아 다른 데이터프레임을만들어 저장하거나 inplace=True를 이용해 원본 데이터프레임까지도 변경이 가능하다.

'Python' 카테고리의 다른 글

[JupyterNotebook] 데이터 저장  (0) 2024.11.02
[JupyterNotebook] 통계함수 기본  (0) 2024.10.31
[JupyterNotebook]데이터 병합  (0) 2024.10.29
[JupyterNotebook]Unpivot  (0) 2024.10.28
[JupyterNotebook]Groupby  (0) 2024.10.27