목록전체 글 (462)
Note

회귀란 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다. 머신러닝 회귀 예측 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다. 1. 회귀의 유형 (1) 회귀 계수 결합에 의한 유형 선형 회귀와 비선형 회귀 (2) 독립변수 개수에 따라 1개 : 단순 선형 회귀, n개 : 다중 선형회귀 2. 선형 회귀의 종류 (1) 일반 선형 회귀 : RSS (Residual Sum of Squares)를 최소화하는 회귀 계수를 찾아 최적화하고, 규제를 적용하지 않은 모델. (2) 릿지(Ridge) : 선형 회귀에 L2 규제를 적용한 회귀 모델 (3) 라쏘(Lasso) : 선형 회귀에 L1 규제를 적용한 회귀 모델 (4) 엘라스틱넷(Elasti..

필요한 라이브러리를 임포트하고 앞에서 저장한 엑셀 파일을 불러온다. 데이터를 불러온 모습이다. 정규표현식을 통해서 알파벳을 제외하고 모든 문자를 제거한 모습이다. 워드 클라우드를 위해 필요 없는 칼럼을 제거하고 문자열 데이터로 변환한 모습이다. 워드 클라우드를 설치해준다. 원하는 이미지를 array의 형태로 불러온다. 불러온 이미지의 형태. 이미지는 원하는 것으로 바꿀 수 있다. 의미 없는 용어 stopword를 설정해준다. 즉, 워드 클라우드에서 제거하고 싶은 단어. 워드 클라우드를 실행하면 이러한 형태로 나오고 윈도우에 맞는 폰트를 설정해야 한다. 검색을 통해서 다른 폰트로 설정 가능하다. 이미지를 실행시키면 위에 있던 사진에 단어들이 나열된 모습을 볼 수 있다.

유튜브 영상 중 조회수가 가장 많은 영상 댓글을 크롤링 필요한 라이브러리를 임포트 한다. 유튜브 크롤링을 위한 크롬을 열어준다. 유튜브는 검색을 위해 검색창을 클릭해 줘야 하기 때문에 검색을 위한 클릭 버튼을 설정해주고 검색하고 싶은 검색어를 입력해준다. 위 과정을 통해 입력된 검색어를 검색하기 위해 검색 버튼을 클릭한다. 유튜브에서 검색을 하고 조회수 순으로 정렬하기 위한 필터 설정을 하고 가끔 필터를 클릭하면 광고가 나오는 경우가 있는데 그걸 스킵하는 코드이다. 조회수를 찾아서 클릭하고 젤 위에 있는 첫번째 영상을 클릭한다. 영상을 클릭하면 자동 재생되는 영상을 멈추는 코드이다. 필요한 것은 댓글이기 때문에 영상을 멈춘다. 스크롤 다운을 통해 유튜브 댓글을 불러온다. 타임 슬립을 너무 적은 시간 걸어..

구글링과 알고 있는 지식을 토대로 작성한 것이기에 틀릴 수도 있으니 참고만 부탁드립니다. 주피터 노트북에서 작성한 것으로 실제 시험 환경과는 다를 수 있습니다. 주어진 데이터를 로드하고 테스트 데이터끼리 merge를 사용해서 합쳐준다. id 변수와 성별 변수는 당장 필요 없기 때문에 따로 저장해준다. 따로 저장한 변수들을 원래 데이터에서 빼고 다시 저장한다. 한글로 있는 데이터를 레이블 인코딩을 통해서 변환해준다. 환불금액에 존재하는 결측치에 대해서는 환불하지 않은 것으로 판단해서 금액 0으로 채워준다. 로지스틱 회귀분석을 사용해서 학습하고 예측한다. 예측 결과를 보면 0과 1이 존재하는데 0은 여자일 확률, 1은 남자일 확률이다. 예측 확률을 데이터 프레임 형태로 변환해주고 남자일 확률만 가져온다. 평..

(1) Basic 스태킹 모델 스태킹 앙상블이란 각각의 알고리즘 기법들을 활용하여 각각 예측을 진행하고 최종적인 스태킹 모델에 합쳐서 다시 예측을 하는 기법이다. 필요한 라이브러리를 임포트하고 위스콘신 유방암 데이터를 로드한다. 학습 데이터와 테스트 데이터를 나눈다. knn 기법, 랜덤 포레스트, 의사 결정 나무, 에이다부스트 4가지 기법에 대해서 각각 객체를 생성하고, 최종 예측을 위한 스태킹 모델 객체도 생성해준다. 각각 알고리즘 기법들에 대해서 학습을 시키고 예측한 정확도들을 확인할 수 있다. 각 알고리즘을 통해 예측한 것을 pred라는 객체에 다시 저장하고 transpose를 이용해 행과 열의 위치 바꿔 각 알고리즘의 예측 결과를 feature로 만든다. 최종 스태킹 모델을 학습시키고 예측 정확도..