목록초보 (34)
Note

1. Heat map 변수 간의 상관관계를 보여주기에 적합한 차트이다. 여기서는 60세 이하 나이랑 참가 인원 성별 사이의 상관관계를 보기로 한다. 라이브러리를 임포트하고 데이터 파일을 불러온다. 60세 이하를 가진 참가자의 데이터를 추출하는 모습. groupby를 통해 나이와 성별로 그룹핑을 했고 ubstack을 통해서 데이터 프레임 형태로 만들었다. subplots()에선 두 개의 값을 받을 수 있는데 figure 와 axes 값을 받을 수 있다. 여기서 변수명은 상관없다. 순서가 중요하다 fig란 figure로써 - 전체 subplot을 말한다. ex) 서브플랏안에 몇 개의 그래프가 있던지 상관없이 그걸 담는 하나. 전체 사이즈를 말한다. ax는 axe로써 - 전체 중 낱낱개를 말한다 ex) 서브플..

1. Pie 차트 라이브러리를 임포트하고 데이터 파일을 불러온다. 그 이후 그리고자 하는 변수에 대한 것을 튜플 형태로 라벨을 지정해준다. 이 코드는 밑에 나올 그래프 옵션 중에 차트를 입체적으로 표현하는 코드 중에 하나이다. 다른 차트와 마찬가지로 먼저 차트 크기를 설정해주고 차트에 대한 옵션을 지정해준다. 파이차트에서는 라벨 달기, 각 조정하기, 값을 소수점 어느 자리까지 표현할 것인가에 대한 옵션이 있다. 코드를 실행해서 출력하면 이와 같은 차트가 나오며 위에 레전드라고 적혀있는 부분은 범례라고 부르는 옵션이며 위치를 바꿔줄 수 있다. 2. Line 차트 이 차트는 1~100등 까지 풀타임, 30k, 20k, 10k 기록을 그래프로 그리는 작업이다. 필요한 자료인 전체 기록으로 새로운 데이터 프레임..

라이브러리 임포트 라이브러리 임포트와 데이터 파일을 불러온다. 18세 ~ 59세까지의 데이터만 불러와서 새로운 변수에 저장해준다. 프린트를 사용해 출력해보면 아래와 같은 사진으로 출력된다. 나이대별로 runner수가 얼마나 있는지 확인하기 위해 Age.value.counts()를 사용한 모습 그래프를 그리기 위해서는 x축과 y축이 필요하다. x축에 Age를 나열하고 y축에는 값들을 나열한다. x축을 나이로 나열하고 그에 해당하는 값을 그래프에 찍기 위해 숫자가 아닌 문자열 형태로 변환한 모습 y축에 값을 나열하고 비율그래프를 나타내기 위해서 ratio라는 새로운 변수를 만들어 준다. 비율로 바꾼 것을 누적데이터로 나타내어 최종적으로 100%를 만들어 주는 형식으로 바꾸어준 모습. 그래프를 그리기에 앞서 ..

필요한 라이브러리 임포트 1. column 차트 마라톤 대회 참가자 중 국적이 미국인 사람들만을 가져오기 (1) state별 runner 수 plt.figutr(fisize=(20,5))는 그래프 크기를 나타낸다 가로 세로의 크기이다. 그래프 함수 : sns.countplot() 사용했으며, 그래프 옵션을 통해서 제목과 x, y축의 이름을 정하고 크기까지 조절할 수 있다. 그래프를 봤을때 MA 주에서 가장 많은 사람이 참가했음을 한눈에 알아볼 수 있다. 시각화의 장점이라고도 할 수 있는 부분이다. (2) State, Gender 별 runner 수 위 그래프와 똑같이 그래프의 크키를 먼저 지정해주고 똑같은 함수를 사용했다. hue는 칼럼명 기준으로 데이터를 구분하게 하는 것인데 여기서는 Male/Fema..

1. 새 column 추가하기 (맨 오른쪽에 컬럼 추가) 16개 데이터를 reshape을 활용해서 4x4형태로 변경 전체 데이터 프레임에 name이라는 컬럼을 맨 오른쪽에 추가된 모습 2. 원하는 위치에 컬럼 추가하기 df.insert(위치, 추가할 컬럼, 컬럼 값, 중복여부)로 표현 원하는 위치에 지정 후 컬럼 추가 함수 insert allow_duplicates=False 원래 데이터와 중복 허용하지 않음을 뜻한다. 3. 기본 테이블을 멀티 컬럼, 인덱스로 바꾸기 df1을 인덱스로 활용해 2중 칼럼을 먼저 만든 모습 4. (이름으로) 행, 열 삭제 (이름으로) 행,열 삭제, axis=1은 열, 0은 행 5. (인덱스로) n번째 행 삭제 데이터 프레임 생성 후에 인덱스를 통해서 n번째 행을 삭제한 모습..