Note

pandas 10 minutes (1) 본문

Machine Learning

pandas 10 minutes (1)

알 수 없는 사용자 2021. 4. 27. 16:02
728x90

1. Object creation

 

(1) Series 데이터 생성

 

s 데이터와 데이터 타입

(2) s에서 0번 데이터

 

0번 데이터(첫 번째)

 

(3) date 변수 생성

 

20130101부터 6일 동안의 날짜 생성. 디폴트는 freq='D' 값이며 여기서 'D'는 Day를 의미한다.

 

(4) 데이터프레임 생성

 

여기서 데이터프레임은 두 가지 이상의 데이터가 결합한 형태를 말한다.

6행 4열로 랜덤한 수를 생성하고 df라는 데이터 프레임에 저장한다. 

index는 기준을 뜻하며, dates로 위에서 생성한 날짜 변수이다.

columns는 컬럼의 이름으로 ABCD를 지정했다.

 

새로운 df2라는 데이터프레임 생성.

각각의 컬럼에 데이터를 지정해서 생성 후 데이터 프레임을 출력한 모습이다.

데이터 타입

2. Viewing data

 

(1) df.head() & df.tail()

 

데이터프레임 모양을 알려주는 df.shape로 (6,4) 형태의 행렬임을 알 수 있다.

또한, df.head()를 통해서 위에서부터 5개 데이터를 보여준다. 이는 R에서 head() 함수와 같다.

위에서부터 10개의 데이터를 보고 싶을 경우 df.head(10)을 입력하면 된다.

반대로 밑에서부터 데이터를 확인하고자 하는 경우에는 df.tail()을 사용하고 df.head와 마찬가지로 기본 값은 5개이다.

 

(2) df.values & df.T

 

값만 보고 싶을 때 쓰는 방법이며, 딥러닝에서 많이 쓰이는 형태라고 한다.

위와 같이 특정 위치에 있는 값도 찾아낼 수 있다.

df.T를 실행한 모습이다. 이것은 행과 열을 바꿀 때 사용한다.

딥러닝에서 행렬끼리 곱셈을 위해서 사용한다고 한다.

 

(3) df.sort_

 

axis 옵션은 행이 바뀌고, 뒤의 옵션에 따라 오름차순과 내림차순으로 설정할 수 있다.

특정 칼럼을 기준으로 값을 정렬할 때는 by 옵션을 사용한다.

 

3. Selection

 

(1) Getting

 

데이터 프레임 생성 후 추출

df라는데이터 프레임을 생성하고 인덱싱을 통해 'A' 그룹의 데이터만 추출해서 볼 수 있다.

행 인덱싱

df[0:3] 옵션으로 3행까지 데이터 추출

날짜를 통한 데이터 추출

단순한 행이 아닌 주어진 날짜 데이터 변수 중 범위를 지정해서 원하는 날짜의 데이터를 출력한 모습.

위치 번호로 추출도 가능하지만 :를 사용해서 범위 지정 후 추출도 가능하다.

 

 

'Machine Learning' 카테고리의 다른 글

4. 엑셀을 다루는 판다스  (0) 2021.04.28
pandas 10 minutes (3)  (0) 2021.04.28
pandas 10 minutes (2)  (0) 2021.04.27
pandas cheat sheet  (0) 2021.04.27
주피터 노트북 사용하기  (0) 2021.04.26
Comments