Note
분류 - Decision Tree (1) 본문
728x90
Decision tree는 의사결정나무라고 불리며, 이런 비슷한 그림은 주위에서 쉽게 한 번쯤은 본 적이 있다.
알고리즘은 데이터에 있는 규칙을 학습을 통해 찾아내 트리기반의 분류 규칙을 만든다. 분류 규칙에 따라서 효율적인 분류가 될 수도 있고 아닐 수도 있다. 또한, 매우 쉽고 유연하게 적용될 수 있다. 하지만 예측 성능을 향상하기 위해서는 규칙 구조가 복잡해야 하며, 과적합이 발생하고 그 결과로 성능이 저하될 수 있다는 단점이 있다.
이 단점은 앙상블 기법에서 오히려 장점으로 작용한다. 여러 개의 약한 학습 방법들을 결합해 확률적 보완과 오류에 대한 가중치를 업데이트 하면서 성능을 향상할 수 있기 때문이다. 뒤에 다룰 GBM, XGBoost, LightGBM 등이 있다.
트리를 분할하기 위해서 균일도 기반 규칙 조건이 있다. 정보 균일도를 측정하는 방법에는 정보 이득 지수와 지니 계수를 사용한다.
정보 이득 지수는 엔트로피라는 개념을 기반으로 한다. 엔트로피는 데이터 집합의 혼잡도를 의미하고 서로 다른 값이 섞여있을때 엔트로피가 높다고 한다. 정보 이득 지수 = 1 - 엔트로피 지수이다. 즉, 정보 이득이 높은 속성을 기준으로 분할합니다.
지니 계수는 경제학에서 불평등 지수로 사용하는 계수이다. 0으로 갈수록 평등하고 1에 가까울수록 불평등을 나타낸다. 지니 계수가 낮을수록 균일도가 높은 것으로 해석한다.
위 그림에 해당하는 면적이 지니 계수이다.
Decision Tree의 분류하는 프로세스이다.
Decision Tree 장점 | Decision Tree 단점 |
- 쉽고 직관적이므로 알아보기 쉽다. - 피처 스케일링이나 정규화 등의 사전 영향도가 적다. |
- 과적합으로 알고리즘 성능이 떨어진다. 이와 같은 현상을 극복하기 위해 트리의 크기를 제한이 필요하다. - 모델의 크기가 너무 커지면 과적합이 생겨 학습 데이터 외에는 예측이 잘 되지 않는다. |
'Machine Learning > Classification' 카테고리의 다른 글
보팅 (Voting) (0) | 2021.05.24 |
---|---|
앙상블 학습 (0) | 2021.05.24 |
분류 - Decision Tree (2) (0) | 2021.05.20 |
분류 성능 평가 지표 (0) | 2021.05.13 |
iris 품종 예측 - scikit learn (0) | 2021.05.06 |
Comments