목록주피터노트북 (43)
Note

최적의 모델은 낮은 분산과 낮은 편향을 가진 것이다. 모델을 학습하다 보면 과대 적합이나 과소 적합을 쉽게 만날 수 있다. 하지만, 둘의 관계가 상충관계(Trade-off)가 존재한다. 즉, 어느 한쪽이 높아지면 다른 한쪽은 낮아진다는 뜻이다. 실제 데이터들은 이를 모두 만족할 수 없기 때문에 어느정도 선을 정하는 것이 필요하다. 편향이 높고 분산이 낮으면 과소적합이며, 분산이 높고 편향이 낮으면 과대 적합이다. 위 그림처럼 어느 지점을 지나면 테스트 셋의 에러도 증가하기 때문에 최적의 점을 찾아야 한다. 이것은 분석하는 사람의 과제이다. 위 그림이 과소 적합과 과대 적합, 적절한 모델을 나타낸 그림을 잘 설명해 주었다.

1. 경사 하강법 경사 하강법을 위한 w0, w1 업데이트하는 함수 만들기 초기 w0, w1을 설정하고 w1은 행렬 곱(np.dot)을 위해 w1.T를 사용하고, 예측 값의 차이를 나타내는 diff 생성 경사 하강법을 수행하기 위한 함수 설정이 끝이다. 경사 하강법을 실행하면 w1 : 3.968, w0 : 6.222의 계수를 구할 수 있다. 그래프를 그리면 위와 같은 그림으로 나타낼 수 있다. 2. 미니 배치 확률적 경사 하강법 전체 데이터가 클수록 경사 하강법 연산에 대한 시간이 오래 걸리기 때문에 미니 배치를 통한 샘플링으로 빠르게 경사 하강법을 수행할 수 있다. 전체 X, y 데이터에서 랜덤 하게 batch_size만큼 데이터 추출하여 sample_X, sample_y로 저장하고 랜덤 하게 batc..

필요한 라이브러리를 임포트하고 앞에서 저장한 엑셀 파일을 불러온다. 데이터를 불러온 모습이다. 정규표현식을 통해서 알파벳을 제외하고 모든 문자를 제거한 모습이다. 워드 클라우드를 위해 필요 없는 칼럼을 제거하고 문자열 데이터로 변환한 모습이다. 워드 클라우드를 설치해준다. 원하는 이미지를 array의 형태로 불러온다. 불러온 이미지의 형태. 이미지는 원하는 것으로 바꿀 수 있다. 의미 없는 용어 stopword를 설정해준다. 즉, 워드 클라우드에서 제거하고 싶은 단어. 워드 클라우드를 실행하면 이러한 형태로 나오고 윈도우에 맞는 폰트를 설정해야 한다. 검색을 통해서 다른 폰트로 설정 가능하다. 이미지를 실행시키면 위에 있던 사진에 단어들이 나열된 모습을 볼 수 있다.

유튜브 영상 중 조회수가 가장 많은 영상 댓글을 크롤링 필요한 라이브러리를 임포트 한다. 유튜브 크롤링을 위한 크롬을 열어준다. 유튜브는 검색을 위해 검색창을 클릭해 줘야 하기 때문에 검색을 위한 클릭 버튼을 설정해주고 검색하고 싶은 검색어를 입력해준다. 위 과정을 통해 입력된 검색어를 검색하기 위해 검색 버튼을 클릭한다. 유튜브에서 검색을 하고 조회수 순으로 정렬하기 위한 필터 설정을 하고 가끔 필터를 클릭하면 광고가 나오는 경우가 있는데 그걸 스킵하는 코드이다. 조회수를 찾아서 클릭하고 젤 위에 있는 첫번째 영상을 클릭한다. 영상을 클릭하면 자동 재생되는 영상을 멈추는 코드이다. 필요한 것은 댓글이기 때문에 영상을 멈춘다. 스크롤 다운을 통해 유튜브 댓글을 불러온다. 타임 슬립을 너무 적은 시간 걸어..

구글링과 알고 있는 지식을 토대로 작성한 것이기에 틀릴 수도 있으니 참고만 부탁드립니다. 주피터 노트북에서 작성한 것으로 실제 시험 환경과는 다를 수 있습니다. 주어진 데이터를 로드하고 테스트 데이터끼리 merge를 사용해서 합쳐준다. id 변수와 성별 변수는 당장 필요 없기 때문에 따로 저장해준다. 따로 저장한 변수들을 원래 데이터에서 빼고 다시 저장한다. 한글로 있는 데이터를 레이블 인코딩을 통해서 변환해준다. 환불금액에 존재하는 결측치에 대해서는 환불하지 않은 것으로 판단해서 금액 0으로 채워준다. 로지스틱 회귀분석을 사용해서 학습하고 예측한다. 예측 결과를 보면 0과 1이 존재하는데 0은 여자일 확률, 1은 남자일 확률이다. 예측 확률을 데이터 프레임 형태로 변환해주고 남자일 확률만 가져온다. 평..