목록Note (462)
Note
1. ndarray의 형태(shape)와 차원 ndarray : N 차원(Dimension) 배열(Array) 객체 ndarray 생성 라이브러리를 먼저 임포트한다. 넘파이를 사용하기 위한 라이브러리 호출한다. np.array()를 사용해서 생성하고 인자는 주로 파이썬 list 또는 ndarray를 입력한다. .shape는 형태를 알 수 있고, .ndim으로 차원을 확인할 수 있다. 2차원의 ndarray 모습으로, 평범한 2차원 데이터와 행이 1개만 있는 2차원 데이터 형태이다. 2. ndarray 데이터 값 타입 ndarray 내의 데이터 값은 숫자, 문자열 등 모두 가능하다. ndarray 내의 데이터 타입은 그 연산의 특성상 같은 데이터 타입만 가능하다. 즉, 한 개의 객체에 int형과 float..
1. 머신러닝이란? 머신러닝이란 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다. 2. 필요한 이유? 복잡한 업무와 규칙을 구현하기 위한 매우 복잡하고 방대한코드와 수시로 변하는 업무 환경, 정책, 사용자 성향에 따른 애플리케이션 구현의 어려움 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제 동일한 숫자라 하더라도 여러 변형으로 인해 숫자 인식에 필요한 여러 특징들을 if else와 같은 조건으로 구분하여 숫자를 인식하기 어렵다. 머신러닝은 복잡한 문제에 대하여 데이터를 기반으로 숨겨진 패턴을 찾아내고 해결할 수 있다. 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기..
데이터를 만져보는 사람들이라면 어디선가 한 번쯤은 들어봤을 크롤링에 대한 글입니다. 크롤링을 해서 얻은 데이터에 대한 책임은 데이터를 사용한 사람에게 있습니다. 크롤링을 하기 좋은 키워드는 사람들의 반응이 많은 것이 데이터를 수집하기 용이하다. 그래서 저는 LH에 대해서 네이버 뉴스 기사를 크롤링해봤습니다. (1) 네이버 뉴스 url 수집 크롤링을 하기 위한 라이브러리들을 임포트 시켜주고 설치합니다. 크롤링을 하기 위해서 크롬을 사용했고 크롬 드라이버를 설치해야 합니다. 네이버 검색창에 입력할 키워드를 설정해 준 모습이다. 코드를 실행하면 크롬 창이 띄워지고 검색창에 내가 크롤링하고자 하는 검색어가 검색되며 url을 가져오게 된다. timesleep(3)은 지연시간을 의미한다. 지연시간 없이 크롤링을 하..
1. Box plot 박스 플랏은 흔히 통계 수업시간에 많이 볼 법한 차트로 상자 수염 그림이라고도 한다. 평소와 같이 필요한 라이브러리를 임포트 해주고 데이터를 불러오면서 시작한다. 국적인 미국인 참가자들 데이터를 불러온다. 국적 안에서 성별을 분리해서 각각 새로운 변수로 저장한다. 차트의 크기를 정하고 스타일도 옵션으로 추가할 수 있다. 이처럼 박스 플랏을 그려 볼 수 있다. 박스 플랏은 최대값, 최솟값, 1분위수, 중위수, 3분위수, 이상치 유무를 보기 쉽게 나타낸 차트이다. 2. Geo chart with Folium 2017년 보스턴 마라톤 데이터를 지도 상에 찍어보는 것이 목표이다. 라이브러리 임포트와 데이터 파일을 불러온 후에 10K 부터 Pace 기록까지 만을 뽑아낸다. 이 전과 같이 시간..
1. Heat map 변수 간의 상관관계를 보여주기에 적합한 차트이다. 여기서는 60세 이하 나이랑 참가 인원 성별 사이의 상관관계를 보기로 한다. 라이브러리를 임포트하고 데이터 파일을 불러온다. 60세 이하를 가진 참가자의 데이터를 추출하는 모습. groupby를 통해 나이와 성별로 그룹핑을 했고 ubstack을 통해서 데이터 프레임 형태로 만들었다. subplots()에선 두 개의 값을 받을 수 있는데 figure 와 axes 값을 받을 수 있다. 여기서 변수명은 상관없다. 순서가 중요하다 fig란 figure로써 - 전체 subplot을 말한다. ex) 서브플랏안에 몇 개의 그래프가 있던지 상관없이 그걸 담는 하나. 전체 사이즈를 말한다. ax는 axe로써 - 전체 중 낱낱개를 말한다 ex) 서브플..