어제 데이터 병합을 하는 방법인 concat을 잠깐 보았다.
데이터 병합에 대해 좀 더 자세히 알아보자.
기본적으로 concat은 행단위병합이다.
열이 동일한 두 데이터 프레임을 간단하게 합칠 때 사용한다.
행의 개수가 똑같고 다른 데이터 프레임과 서로 연관이 있을경우 axis를 이용해서 열단위로도 병합이 가능하다.
이 때 열의 순서를 새로 지정할 수 있다.
서로 열과 행이 다르고 한가지 열에서 데이터가 동일할 경우에는 위의 방법으로 병합을 하기가 힘들다.
그래서 merge를 사용한 Join을 하게된다.
기본적인 Join은 Inner Join이며 조인키를 기준으로 첫번째 데이터프레임에 두번째 데이터프레임을 병합한다.
Left Join과 Right Join은 조인키가 없어도 병합이 가능하며, 각 데이터에서 없는 값은 빈칸이 되어 나타난다.
Left Join은 왼쪽을 기준으로 Join하며, Right Join의 경우 오른쪽을 기준으로 하여 Join한다
위의 경우에는 왼쪽에는 데이터가 있지만 오른쪽엔 그와 맞는 데이터가 없어서 결측값이 된 Left Join과 반대로 오른쪽 데이터는 있지만 왼쪽에는 그와 맞는 데이터가 없어서 결측값이 된 Right Join을 볼 수 있다.
Outer Join은 기본 Join을 한 후에 병합되지 않은 모든 정보를 보여준다.
차집합의 경우에는 isin을 사용하여 겹치는 값이 존재하는 것들을 삭제하고 겹치는 값이 존재하지 않는 행을 반환하여준다.
'Python' 카테고리의 다른 글
[JupyterNotebook] 중복 데이터 (0) | 2024.11.01 |
---|---|
[JupyterNotebook] 통계함수 기본 (0) | 2024.10.31 |
[JupyterNotebook]Unpivot (0) | 2024.10.28 |
[JupyterNotebook]Groupby (0) | 2024.10.27 |
[JupyterNotebook]Pivot (1) | 2024.10.26 |