Note
파이썬과 머신 러닝 본문
728x90
1. 머신러닝이란?
- 머신러닝이란 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다.
2. 필요한 이유?
- 복잡한 업무와 규칙을 구현하기 위한 매우 복잡하고 방대한코드와 수시로 변하는 업무 환경, 정책, 사용자 성향에 따른 애플리케이션 구현의 어려움
- 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제
동일한 숫자라 하더라도 여러 변형으로 인해 숫자 인식에 필요한 여러 특징들을 if else와 같은 조건으로 구분하여 숫자를 인식하기 어렵다.
- 머신러닝은 복잡한 문제에 대하여 데이터를 기반으로 숨겨진 패턴을 찾아내고 해결할 수 있다.
- 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출할 수 있다.
3. 머신러닝의 분류
- 지도 학습 - 분류, 회귀, 시각 / 음성 감지 / 인지
- 비지도 학습 - 군집화(클러스터링), 차원 축소
4. 머신러닝의 단점
- 데이터에 너무 의존적이다. 질이 좋지 않은 데이터를 넣으면 그에 맞게 질이 좋지 않은 데이터가 출력된다. 이 말은 데이터 전처리가 필요하다는 말이기도 하다. 또한, 이러한 이유를 모든 데이터 관련된 사람들이 좋은 데이터를 수집하기 위해 노력한다.
- 과적합(overfiting) 문제 - 학습용 데이터에 최적화 되어 있기 때문에 실제 예측시 사용하기에는 결과가 정확하지 않을 수 있다.
- 블랙박스 - 복잡한 머신러닝 알고리즘으로 인해 도출된 결과를 논리적으로 이해하는 것이 어렵다.
5. 머신러닝에서 파이썬이 가지는 장점
- 쉽고 뛰어난 개발 생산성
- 인터프리터 언어로 속도는 느리지만 쉽고 유연한 특징으로 인해 다양한 영역에서 사용
- 오픈 소스와 많은 라이브러리 지원
- 대부분 딥러닝 관련한 것들이 파이썬을 기반으로 작성
6. 머신러닝 주요 패키지
- 머신러닝 패키지 - scikit learn
- 배열 / 선형대수 / 통계 패키지 - Numpy, Scipy
- 데이터 핸들링 - pandas
- 시각화 - matplotlib, seaborn
- 대화형 파이썬 툴 - jupyter
'Machine Learning' 카테고리의 다른 글
학습 / 테스트 데이터 (0) | 2021.05.06 |
---|---|
Numpy (넘파이) (0) | 2021.05.06 |
pandas다루기_보스톤마라톤(캐글 데이터) (0) | 2021.04.28 |
4. 엑셀을 다루는 판다스 (0) | 2021.04.28 |
pandas 10 minutes (3) (0) | 2021.04.28 |
Comments