[JupyterNotebook] 중복 데이터

Python

[JupyterNotebook] 중복 데이터

meister9701 2024. 11. 1. 10:34

중복데이터의 발견 및 삭제 방법

우선 중복데이터가 들어가있는 데이터 프레임을 하나 생성하였다.

중복값은 duplicated를 이용하면 찾을 수 있다.

기본적으로 모든 값이 같아야 중복값으로 체크하고, 특정 열만 기준으로 중복값을 잡고싶다면 duplicated(subset="[]")을 이용해야한다.

중복값 행데이터를 전부 보고싶다면 다시 데이터 프레임처럼 만들어서 볼 수 있다.

df[df.duplicated]를 사용하면 True인 값을 반환하므로 두번째부터 나타나는 중복데이터를 데이터프레임으로 볼 수 있다.

원본까지 보고싶다면 keep=False를 이용하여 원본데이터도 볼 수 있다.

중복값은 drop_duplicated로 삭제할 수 있다.

이 때 중복된 값들 중 하나만 남기고 나머지가 제거된다.

기본적으로 원본 데이터가 바뀌지 않아 다른 데이터프레임을만들어 저장하거나 inplace=True를 이용해 원본 데이터프레임까지도 변경이 가능하다.

'Python' 카테고리의 다른 글

[JupyterNotebook] 데이터 저장 (0)	2024.11.02
[JupyterNotebook] 통계함수 기본 (0)	2024.10.31
[JupyterNotebook]데이터 병합 (0)	2024.10.29
[JupyterNotebook]Unpivot (0)	2024.10.28
[JupyterNotebook]Groupby (0)	2024.10.27

현재글[JupyterNotebook] 중복 데이터

meister9701

초보 개발자 meister9701 님의 블로그 입니다.

nan, pivot, 프로그래머스, python3, DataFrame, tuple, anaconda, Python, 코딩테스트, groupby, Jupyter Notebook, pycharm, Markdown, jupyternotebook, adsp, Dictionary, Axis, 국비교육, 데이터 전처리, 드론,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

meister9701