Note

파이썬과 머신 러닝 본문

Machine Learning

파이썬과 머신 러닝

알 수 없는 사용자 2021. 5. 5. 23:29
728x90

1. 머신러닝이란?

  • 머신러닝이란 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다.

2. 필요한 이유?

  • 복잡한 업무와 규칙을 구현하기 위한 매우 복잡하고 방대한코드와 수시로 변하는 업무 환경, 정책, 사용자 성향에 따른 애플리케이션 구현의 어려움
  • 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제

동일한 숫자라 하더라도 여러 변형으로 인해 숫자 인식에 필요한 여러 특징들을 if else와 같은 조건으로 구분하여 숫자를 인식하기 어렵다.

  • 머신러닝은 복잡한 문제에 대하여 데이터를 기반으로 숨겨진 패턴을 찾아내고 해결할 수 있다.
  • 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출할 수 있다.

3. 머신러닝의 분류

  • 지도 학습 - 분류, 회귀, 시각 / 음성 감지 / 인지
  • 비지도 학습 - 군집화(클러스터링), 차원 축소

4. 머신러닝의 단점

  • 데이터에 너무 의존적이다. 질이 좋지 않은 데이터를 넣으면 그에 맞게 질이 좋지 않은 데이터가 출력된다. 이 말은 데이터 전처리가 필요하다는 말이기도 하다. 또한, 이러한 이유를 모든 데이터 관련된 사람들이 좋은 데이터를 수집하기 위해 노력한다.
  • 과적합(overfiting) 문제 - 학습용 데이터에 최적화 되어 있기 때문에 실제 예측시 사용하기에는 결과가 정확하지 않을 수 있다.
  • 블랙박스 - 복잡한 머신러닝 알고리즘으로 인해 도출된 결과를 논리적으로 이해하는 것이 어렵다.

5. 머신러닝에서 파이썬이 가지는 장점

  • 쉽고 뛰어난 개발 생산성
  • 인터프리터 언어로 속도는 느리지만 쉽고 유연한 특징으로 인해 다양한 영역에서 사용
  • 오픈 소스와 많은 라이브러리 지원
  • 대부분 딥러닝 관련한 것들이 파이썬을 기반으로 작성

6. 머신러닝 주요 패키지

  • 머신러닝 패키지 - scikit learn
  • 배열 / 선형대수 / 통계 패키지 - Numpy, Scipy
  • 데이터 핸들링 - pandas
  • 시각화 - matplotlib, seaborn
  • 대화형 파이썬 툴 - jupyter

'Machine Learning' 카테고리의 다른 글

학습 / 테스트 데이터  (0) 2021.05.06
Numpy (넘파이)  (0) 2021.05.06
pandas다루기_보스톤마라톤(캐글 데이터)  (0) 2021.04.28
4. 엑셀을 다루는 판다스  (0) 2021.04.28
pandas 10 minutes (3)  (0) 2021.04.28
Comments