분류 전체보기 49

[JupyterNotebook] 시계열 데이터를 이용한 재구성

날짜별 인덱스가 있는 요소를 이용하여 특정구간에 숫자들의 합을 재구성할 수 있다.날짜별 인덱스를 사용하여 나머지 데이터를 불러왔다.시계열 정보는 문자열을 날짜별로 바꿔야하여 parse_dates=True를 이용해서 날짜별 데이터로 불러와야한다. 재구성 할 때 기준이 된 것을 기준으로 모든 것을 더 한다.문자열 데이터가 여러개라면 반복되서 나올 수 있기에 숫자데이터만 있는 우량(mm)를 이용하도록하자.resample을 이용하여 날짜, 주, 월단위 기준으로 데이터를 분류하였다.resample을 이용하였기 때문에 다 더해져 날짜, 주, 월단위 내부데이터가 다 하나로 합쳐진 것을 볼 수 있다.

Python 2024.10.23

[JupyterNotebook]데이터 구분

데이터들을 분류하는 방법을 알아보자.데이터를 로드하여 열에서 숫자 및 문자열 데이터 열을 분류하여 볼 수 있다.범주형 데이터는 특정 범주를 가진 데이터를 확인할 수 있다. 범주형 데이터는 중복이 가능하며 특정 범주 내부의 값만을 가진다.unique로 범주형 데이터의 종류를 알 수 있고, value_counts로 범주형 데이터마다 개수를 확인할 수 있다.nlargest 및 nsmallest로 개수 순서대로 정렬할 수 있다.nlargest 및 nsmallest를 이용해서 데이터프레임에서도 볼 수 있다.

Python 2024.10.22

[JupyterNotebook]특정 데이터 조회

데이터 프레임에서 결측값 및 특정 값을 조회하는 방법을 알아보자.info를 통해 결측값이 존재하는지 얼마나 존재하는지 확인할 수 있다.hasnas를 이용해 특정 열에 결측값이 존재 할 시 True, 없을 시 False를 반환해준다.혹은 is null를 이용하여 데이터 프레임 및 특정 열에 결측값을 True로 반환해준다.결측값이 존재하는 행을 axis와 any를 이용하여 결측값이 있는 모든행을 필터링할 수 있다.특정열에서 결측치인 값을 가진 모든 행을 필터링할 수도 있다.str.contains를 이용하면 특정 문자열을 지정하여 그 열이 있는 모든 행을 필터링 할 수 있다.데이터프레임에서는 바로 사용이 불가능하다.

Python 2024.10.21

[JupyterNotebook] 행열 데이터 변경 및 전처리

오늘은 행열 데이터 변경에 대해 알아보겠다.사용하던 자료를 평소처럼 들고와서 진행하겠다.열을 새로이 생성할 수 있다.새로 생성한 열은 마지막 열 자리로 가고, 내용은 뒤에 지정할 수 있다.round를 이용해 소수점 아래자리를 지정할 수 있다. 반올림하여 지정한다.데이터 타입은 astype로 변경할 수 있다.데이터프레임 및 시리즈에서는 astype를 사용할 수 없어 리스트로 추출 후 astype를 이용하여 진행이 가능하다.이걸 사용하여도 바뀐 부분이 저장되지 않기때문에 이것을 저장하여 데이터 프레임에 넣는 과정까지 진행하여야 특정 열의 데이터 타입 변경이 가능하다.$나 mm, Kg등 단위가 들어가있어서 object타입을 바로 int나 float로 변경할 수 없을 때도 있다.이 때, 데이터 전처리 과정을 통..

Python 2024.10.17

[Jupyter Notebook]인덱스 변경

JupyterNotebook에서 인덱스를 변경할 수 있다.숫자만으로 되어있던 인덱스를 set_index를 사용하여 연도별 인덱스로 변경하였다.연도별 인덱스를 sort_index를 이용하여 순차적으로 나열이 가능하다.연도별 인덱스에서 특정값만을 추출하여 볼 수 있다.이 때 csv파일 내부 데이터는 기본적으로 str타입이기에 str타입을 읽을 때처럼 큰 따옴표나 작은 따옴표를 사용하여야한다.열의 내용을 변경하는 것도 가능하다.슬라이싱을 통해 구간만 추려내는 것도 가능하고 각각의 열을 여러개 지정하여 그 열들만 가져오는 것이 가능하다.이 때, 열의 순서는 지정한 순서대로 나오니 주의하여 지정하자.

Python 2024.10.16

[Jupyter Notebook]데이터 검색

데이터 검색에는 여러가지 방법이 있다.논리식, 인덱서 검색등이 있다.이번에는 공공데이터 포털에서 가져온 대구 달성군 기상관측 정보를 이용하겠다.우선 논리식 검색부터 사용해보겠다.논리식 검색은 특정조건을 만족하는 값만을 리턴받고 싶을 때 사용하는 방법이다.시리즈로 검색이 가능하다. 이때는 True, False값으로 반환한다.데이터프레임으로 검색하면 조건에 맞는 값만을 데이터프레임화 시켜준다.다른 조건하나를 더 추가하였다. 이걸로 두가지 조건이 생겼는데 그것을 이용해보자.우선 And조건이다 이 조건을 통해 두가지 조건을 다 만족하는 값만을 리턴받아서 나타낸다.Or조건도 가능하다. 이를 통해 둘 중하나만 만족하는 값들을 받아올 수 있다.여기서 |는 Enter키 위에 버튼을 Shift와 같이 누르면 나온다.그 ..

Python 2024.10.15

[Jupyter Notebook 기초]데이터 불러오기 및 간단한 데이터 파악

JupyterNotebook에서 데이터 불러오는 방법은 pd.read_를 이용하면 된다.csv파일 경우에는 csv를 excel파일은 xlsx를 이용하면 된다.데이터는 공공데이터 포털 사이트에서 가져오겠다. 간혹 OpenAPI를 제공하는 것들도 있어서 연습하기 좋다.OpenAPI데이터를 이용하고싶다면 로그인을 해야한다.오늘 가져올 데이터는 대구광역시 북구 모범음식점 데이터로 할것이다.파일의 위치와 경로가 같다면 바로 데이터를 불러올 수 있다.그러나 위치가 다르다면 다른 방법을 사용하여야한다.상대경로 및 절대경로에 있는 파일을 불러오는 방법이다.데이터를 불러오고 거기에 주요 정보를 확인하는 방법이다.head, tail등으로 제일 앞 및 뒤를 조회할 수 있으며, info로 요약데이터를 볼 수 있다.특정 열만 ..

Python 2024.10.14

[Jupyter Notebook 기초]시리즈와 딕셔너리로 데이터 생성하기

시리즈와 데이터프레임을 다른 방법으로 생성할 수 있다.시리즈는 리스트 및 딕셔너리로도 생성할 수 있다.리스트는 0번부터 데이터를 넣어주고 딕셔너리는 이름과 값을 넣을 수 있다.위에서 만든 시리즈를 이용해서 만들 수 있다.시리즈에서 이름을 index로 설정하는 방법도 있으며, 여러개의 시리즈를 사용하여 columns과 데이터 값을 넣을 수도 있다.

Python 2024.10.13

[Jupyter Notebook 기초]기본 속성

판다스에서 데이터 타입은 int64, float64, object가 있다.이는 순서대로 정수, 실수, 문자열을 나타낸다.시리즈에서 데이터 타입을 확인할 수 있다.기본적으로 시리즈를 보게되면 마지막 부분에 Name과 dtype이 나오는데, dtype가 내부 원소들의 데이터의 타입을 의미한다.데이터 타입말고 다른 것들도 확인할 수 있다.shape를 이용하면 내부 요소들의 모양을 알 수 있으며, ndim으로 차원수를 확인할 수 있다.size로는 원소 개수를 알 수 있고, name의 세부정보를 확인하고 싶다면 index를 이용해 name의 리스트와 데이터타입을 확인할 수 있다.데이터프레임에서도 속성을 확인할 수 있다.데이터프레임 생성할 때 list를 이용해서 한글자씩 넣어서 행과 열의 이름을 만들 수도 있다. ..

Python 2024.10.12

[Jupyter Notebook 기초]Axis(축)

축에대해 더 자세히 알아보자.JupyterNotebook에서 행과 열을 나타내는 코드는 axis=0(행),axis=1(열)이다.특정 행 또는 열을 다 덧셈하고 싶다면 sum함수를 이용해야하며, 거기서 행 또는 열을 뒤에서 설정해줄 수 있다.그 중에서도 특정 행 또는 열을 삭제하고 싶다면 drop함수를 이용해야하며, 삭제하려면 먼저 몇번째를 삭제할 지 설정한 후에 행 또는 열을 지정해야한다. 그리고 이 값은 원본 데이터프레임에 영향이 없으므로 저장하고 싶다면 다른 변수에 지정해서 저장해야한다.

Python 2024.10.11