목록사이킷런 (2)
Note

구글링과 알고 있는 지식을 토대로 작성한 것이기에 틀릴 수도 있으니 참고만 부탁드립니다. Q. mtcars 데이터셋의 qsec 칼럼을 최소 최대 척도로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. 필요한 라이브러리를 로딩하고 데이터를 불러와 데이터 프레임 형태로 저장을 한다. head()를 통해 데이터가 잘 불러와진 모습을 확인할 수 있다. iloc를 이용해서 필요한 칼럼만을 가져온다. head()로 확인해보니 qsec를 잘 가져온 것을 알 수 있다. sklearn 내장 함수를 사용해서 min-max 스케일을 한 모습이다. min-max 스케일은 값에 따라 0에서 1사이의 값으로 표현하는 것이다. 값들 중에 0.5보다 큰 값을 answer에 저장하고 출력해보면 조건에 맞는 값들은 True..

1. K 폴드 필요한 라이브러리를 임포트하고 iris 데이터를 불러온 후에 데이터 형태를 확인한다. 데이터를 불러오고 확인하는 습관을 들이는 것이 좋다. 디시전트리 모델을 정의하고 객체를 생성한다. cv = cross validation이다. KFold를 사용하고 괄호 안에 있는 n_splits = 5 는 5개의 폴드 세트로 분리한다. 그다음 정확도를 담을 리스트 객체를 생성한다. for문이 도는 동안 KFold 객체의 split( )을 호출하면 폴드 별 학습용, 검증용 테스트의 row 인덱스를 array로 반환한다. 2. Staratified K 폴드 K-FOLD 교차검증의 문제점은 불균형한 데이터에는 적용이 안된다. 이를 해결할 방법으로 나온 것이 StaratifiedKFold 이다. 불균형한 분포도..