목록주피터노트북 (43)
Note

1. FP - Growth 알고리즘이란? Apriori 알고리즘의 속도 측면 단점을 개선한 알고리즘이다. Apriori 알고리즘과 비슷한 속도를 내지만 FP Tree 구조를 사용해 빠른 속도를 가진다. 단점으로는 동일하게 발생하는 아이템 집합을 찾는 데는 유용하지만 연관성을 찾기는 어렵고 또한, 설계가 어려운 단점이 있다. 2. 원리 1) 모든 거래를 확인하여 , 각 아이템의 지지도를 계산하고 최소 지지도 이상 해당하는 아이템만 선택한다. 2) 전체 거래에서 빈도가 높은 순으로 정렬한다. 3) 부모 노드 중심으로 자식 노드를 추가해가면서 tree를 생성한다. 4) 새로운 아이템이 발생하면 부모 노드부터 시작하고, 그렇지 않으면 기존 노드에서 확장한다. 5) 모든 거래에 대해 반복하고 tree 생성 후에 ..
1. 정규 표현식이란? 특정 규칙이 있는 텍스트 데이터를 좀 더 간편하고 빠르게 전처리 할 수 있는 방식이다. 2. 문법 문자 규칙 의미 \(역슬래쉬) 문자 자체 \d 모든 숫자( = [0-9] ) \D 숫자를 제외한 모든 문자 ( = [^0-9] ) \s 공백을 의미 ( = [\t\n\r\f\v] ) \S 공백을 제외한 문자 ( = [^\t\n\r\f\v] ) \w 문자 또는 숫자 ( = [a-zA-z0-9] ) \W 문자 또는 숫자가 아닌 문자 ( = [^a-zA-z0-9] ) ^문자가 오면 해당하는 것을 제외하고 라는 것을 알 수 있다. 특수 문자 의미 . 한 개의 임의 문자 ( \n은 제외 ) ? 앞에 문자가 있을수도 없을수도 있다.( 0 or 1개 ) * 앞에 문자가 무한개로 있을수도 없을수도 ..
1. Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 단어에 대한 빈도 값을 부여한 후 피쳐 값으로 추출하는 방식. 2. Bag of Words(BOW) 구조 문장 1 : My wife likes to watch baseball games and my daughter likes to watch baseball games too 문장 2 : My wife likes to play baseball 문장 1과 문장 2에 대해서 중복을 제거하고 고유한 인덱스를 부여한다. and, baseball, daughter, games, likes, my, play, to, too, watch, wife 위의 순서대로 0번부터 10번의 번호를 부여하는 방법. 3. Bag of Words..

1. 텍스트 분석이란? 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스(Business Intelligence)나 예측 분석 등의 분석 작업을 주로 수행한다. 2. 텍스트 분석 주요 영역 텍스트 분류 - 특정 분류 / 카테고리에 속하는 것을 예측하는 기법 감성 분석 - 텍스트에 표현되는 감정, 판단, 믿음, 의견, 기분 등의 주관적인 요소를 분석하는 기법 텍스트 요약 - 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법 텍스트 군집화와 유사도 측정 - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 3. 텍스트 전처리(텍스트 정규화) Cleansing - 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거 Tokenization - 문장..

모든 데이터가 단순 선형 회귀의 형태이면 좋겠지만, 실제는 그렇지 않다. 다항 회귀를 사용할 일이 많은데 이때, 과대 적합 문제가 많이 발생한다. 이를 해결하기 위해 선형 회귀에 규제를 적용하는 것이다. 일반 선형 회귀 모형은 비용 함수를 최소화 하는 것인데 회귀 계수가 커지면서 과대 적합 문제가 나타난다. 규제 선형 회귀 모델은 릿지 회귀, 라쏘 회귀, 엘라스틱넷 회귀 3가지가 있다. 위 코딩 식처럼 세 가지 회귀 모두 alpha 값을 정해줘야 한다. alpha 값의 역할 alpha가 0이면 기존 비용함수와 같다. alpha 값을 크게하면 비용 함수 회귀 계수 값을 작게 해 과적합을 개선할 수 있다. alpha 값을 작게하면 회귀 계수 값이 커져도 어느 정도 상쇄가 가능해서 학습 데이터 적합 개선이 가..