목록규제 (2)
Note

1. 데이터 양 증가 학습하고자 하는 모델 데이터 양이 적을수록, 학습 데이터의 특정 패턴이나 노이즈까지 쉽게 학습되므로 과적합 발생 확률이 증가한다. 즉, 데이터 양이 많을수록 학습 데이터의 일반적인 특성을 학습할 수 있으며, 과적합 확률이 줄어든다. 이미지 데이터는 데이터 증식을 많이 사용한다. 여기서 데이터 증식이란, 기존 학습시킬 데이터를 변형하거나 노이즈를 추가하여 학습 데이터의 양을 늘리는 것을 말한다. 2. 모델 복잡도 조절 회귀분석에서 독립 변수가 많을수록 모델의 설명력은 좋아질 수 있지만 과적합이 발생할 수 있다. 독립 변수간 다중 공산성이나 차원의 저주가 발생할 수 있기 때문이다. 이를 해결하기 위해 차원 축소를 실행하여 모델의 복잡도를 줄인다. 인공신경망에서는 은닉층의 갯수나 파라미터..

모든 데이터가 단순 선형 회귀의 형태이면 좋겠지만, 실제는 그렇지 않다. 다항 회귀를 사용할 일이 많은데 이때, 과대 적합 문제가 많이 발생한다. 이를 해결하기 위해 선형 회귀에 규제를 적용하는 것이다. 일반 선형 회귀 모형은 비용 함수를 최소화 하는 것인데 회귀 계수가 커지면서 과대 적합 문제가 나타난다. 규제 선형 회귀 모델은 릿지 회귀, 라쏘 회귀, 엘라스틱넷 회귀 3가지가 있다. 위 코딩 식처럼 세 가지 회귀 모두 alpha 값을 정해줘야 한다. alpha 값의 역할 alpha가 0이면 기존 비용함수와 같다. alpha 값을 크게하면 비용 함수 회귀 계수 값을 작게 해 과적합을 개선할 수 있다. alpha 값을 작게하면 회귀 계수 값이 커져도 어느 정도 상쇄가 가능해서 학습 데이터 적합 개선이 가..