목록분류 (2)
Note

1. 보팅 유형 (1) 하드 보팅 : 여러 개의 분류기 간 다수결로 최종 값을 결정한다. (2) 소프트 보팅 : 여러 개의 분류기 간 최종 값에 대한 확률을 평균하여 결정한다. 일반적으로 하드 보팅보다 소프트 보팅의 예측 성능이 상대적으로 우수하여 주로 사용한다. 사이킷런은 VotingClassifier 클래스를 통해 보팅을 지원한다. 2. 실습 - 위스콘신 유방암 데이터 사용 필요한 라이브러리를 임포트 한다. 데이터를 로드하고 잘 로드됐는지 head()를 통해 확인한다. 개별 모델과 보팅 방식으로 결합한 모델에 대한 성능 비교 개별 모델 클래스를 지정해주고 소프트 보팅 기반으로 합친 모델 클래스도 생성해준다. 학습과 검증을 위해 split을 사용해서 데이터 셋을 분리해준다. 소프트 보팅 기반으로 합친 ..

Decision tree는 의사결정나무라고 불리며, 이런 비슷한 그림은 주위에서 쉽게 한 번쯤은 본 적이 있다. 알고리즘은 데이터에 있는 규칙을 학습을 통해 찾아내 트리기반의 분류 규칙을 만든다. 분류 규칙에 따라서 효율적인 분류가 될 수도 있고 아닐 수도 있다. 또한, 매우 쉽고 유연하게 적용될 수 있다. 하지만 예측 성능을 향상하기 위해서는 규칙 구조가 복잡해야 하며, 과적합이 발생하고 그 결과로 성능이 저하될 수 있다는 단점이 있다. 이 단점은 앙상블 기법에서 오히려 장점으로 작용한다. 여러 개의 약한 학습 방법들을 결합해 확률적 보완과 오류에 대한 가중치를 업데이트 하면서 성능을 향상할 수 있기 때문이다. 뒤에 다룰 GBM, XGBoost, LightGBM 등이 있다. 트리를 분할하기 위해서 균일..