중복데이터의 발견 및 삭제 방법
우선 중복데이터가 들어가있는 데이터 프레임을 하나 생성하였다.
중복값은 duplicated를 이용하면 찾을 수 있다.
기본적으로 모든 값이 같아야 중복값으로 체크하고, 특정 열만 기준으로 중복값을 잡고싶다면 duplicated(subset="[]")을 이용해야한다.
중복값 행데이터를 전부 보고싶다면 다시 데이터 프레임처럼 만들어서 볼 수 있다.
df[df.duplicated]를 사용하면 True인 값을 반환하므로 두번째부터 나타나는 중복데이터를 데이터프레임으로 볼 수 있다.
원본까지 보고싶다면 keep=False를 이용하여 원본데이터도 볼 수 있다.
중복값은 drop_duplicated로 삭제할 수 있다.
이 때 중복된 값들 중 하나만 남기고 나머지가 제거된다.
기본적으로 원본 데이터가 바뀌지 않아 다른 데이터프레임을만들어 저장하거나 inplace=True를 이용해 원본 데이터프레임까지도 변경이 가능하다.
'Python' 카테고리의 다른 글
[JupyterNotebook] 데이터 저장 (0) | 2024.11.02 |
---|---|
[JupyterNotebook] 통계함수 기본 (0) | 2024.10.31 |
[JupyterNotebook]데이터 병합 (0) | 2024.10.29 |
[JupyterNotebook]Unpivot (0) | 2024.10.28 |
[JupyterNotebook]Groupby (0) | 2024.10.27 |