목록파이썬 (62)
Note
유튜브 영상 중 조회수가 가장 많은 영상 댓글을 크롤링 필요한 라이브러리를 임포트 한다. 유튜브 크롤링을 위한 크롬을 열어준다. 유튜브는 검색을 위해 검색창을 클릭해 줘야 하기 때문에 검색을 위한 클릭 버튼을 설정해주고 검색하고 싶은 검색어를 입력해준다. 위 과정을 통해 입력된 검색어를 검색하기 위해 검색 버튼을 클릭한다. 유튜브에서 검색을 하고 조회수 순으로 정렬하기 위한 필터 설정을 하고 가끔 필터를 클릭하면 광고가 나오는 경우가 있는데 그걸 스킵하는 코드이다. 조회수를 찾아서 클릭하고 젤 위에 있는 첫번째 영상을 클릭한다. 영상을 클릭하면 자동 재생되는 영상을 멈추는 코드이다. 필요한 것은 댓글이기 때문에 영상을 멈춘다. 스크롤 다운을 통해 유튜브 댓글을 불러온다. 타임 슬립을 너무 적은 시간 걸어..
(1) Basic 스태킹 모델 스태킹 앙상블이란 각각의 알고리즘 기법들을 활용하여 각각 예측을 진행하고 최종적인 스태킹 모델에 합쳐서 다시 예측을 하는 기법이다. 필요한 라이브러리를 임포트하고 위스콘신 유방암 데이터를 로드한다. 학습 데이터와 테스트 데이터를 나눈다. knn 기법, 랜덤 포레스트, 의사 결정 나무, 에이다부스트 4가지 기법에 대해서 각각 객체를 생성하고, 최종 예측을 위한 스태킹 모델 객체도 생성해준다. 각각 알고리즘 기법들에 대해서 학습을 시키고 예측한 정확도들을 확인할 수 있다. 각 알고리즘을 통해 예측한 것을 pred라는 객체에 다시 저장하고 transpose를 이용해 행과 열의 위치 바꿔 각 알고리즘의 예측 결과를 feature로 만든다. 최종 스태킹 모델을 학습시키고 예측 정확도..
1. 장점 ( XGBoost 대비) (1) 더 빠른 학습과 예측 수행시간( CPU 코어가 증가된다면 XGBoost도 빠른 수행 속도를 보인다. ) (2) 작은 메모리 사용량 (3) 원-핫 인코딩 등 인코딩 방법을 사용하지 않고도 카테고리형 피처를 최적으로 변환하고 노드 분할 수행 (4) GPU 지원 (5) 리프 중심 트리 분할 ( Leaf Wise ) - 균형 분할보다는 오류를 줄이는 방향성을 가지고 트리를 분할해서 속도와 성능 향상 * Light GBM을 사용하기 위해서는 Visual Studio Build Tools 설치해야한다. Visual Studio Build Tools에서 Visual C++ 빌도 도구를 설치한 후에 아나콘다 프롬프트에서 관리자 권한으로 실행 후 conda install -c ..
1. 장점 (1) 뛰어난 예측 성능 (2) GBM 대비 수행 시간이 빠르다. ( CPU 병렬 처리, GPU 지원 ) (3) 규제 기능 탑재, Tree Prunning (4) 조기 중단, 자체 내장된 교차 검증, 결측 값 자체 처리 2. 조기 중단 기능 (Early Stopping) (1) 특정 반복 횟수만큼 더 이상 비용함수가 감소하지 않으면 지정된 반복 횟수를 완료하지 않고 수행 종료 가능. (2) 학습을 위한 시간 단축. ( 최적화 튜닝 단계에서 사용 가능) (3) 반복 횟수를 단축할 경우 최적화 문제 발생 가능성 - 최적화가 되지 않은 상태에서 학습이 종료될 수 있다. 3. 코딩 - 위스콘신 유방암 데이터 ( 다양한 방법을 똑같은 데이터로 예측 성능을 비교하기 위함) 공통된 라이브러리 로드 XGBo..
부스팅 : 성능이 약한 학습기를 여러 개 연결하여 순차적으로 학습함으로써 강한 학습기를 만드는 앙상블 학습 기법. 장점 : 오답에 대해 높은 가중치를 부여하고 정답에 대해 낮은 가중치를 부여하여 오답에 더욱 집중한다. 단점 : 이상치(Outlier)에 취약하다. GBM은 가중치 업데이트를 경사 하강법을 이용한다. 기울기를 최소화하는 방향성을 가지고 반복적으로 가중치 값을 업데이트하는 것이 경사 하강법이다. GBM 단점 : 가중치 업데이트 반복 수행으로 인해 학습 시간이 상대적으로 오래 걸린다, 그리드서치까지 할 경우 더 오랜 시간이 소요된다. 코딩 옵션 (1) loss : 경사 하강법에서 비용 함수 지정, 디폴트 값은 'deviance' (2) learning_rate : 학습을 진행할 때마다 적용하는 ..