목록Deep Learning (51)
Note
!pip install git+https://github.com/ssut/py-hanspell.git from hanspell import spell_checker sent = "맞춤법 틀리면 외 않되? 내마음대로쓰면돼지 " spelled_sent = spell_checker.check(sent) hanspell_sent = spelled_sent.checked print(hanspell_sent) 맞춤법 틀리면 왜 안돼? 내 마음대로 쓰면 되지 # 출력 결과 네이버 한글 맞춤법 검사기를 토대로 만들어진 한국어 전처리 패키지
!pip install easyocr from PIL import Image import matplotlib.pyplot as plt import cv2 reader = easyocr.Reader(['ko', 'en'], gpu=True) # 한글과 영어 학습 result = reader.readtext("test.jpg") print(result) 이전 pytesseract 보다는 전처리를 하지 않아도 한글에 대한 성능이 조금 더 괜찮은 것을 볼 수 있다.
띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지 pip install git+https://github.com/haven-jeon/PyKoSpacing.git sent = '김군은 극중 다중 인격 사나이 이광수 역을 맡았다. 김군은 한국 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사부님인 유사부(김모씨 분)를 찾으러 내려온 인물이다.' new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기 from pykospacing import Spacing spacing = Spacing() kospacing_sent = spacing(new_sent) print(sent) print(kospacing_sent) 김군은 극중 ..
from PIL import Image from pytesseract import * import re import cv2 config = ('-l kor --oem 3 --psm 4') im = cv2.imread('test.jpg') print(pytesseract.image_to_string(im,config = config)) # gray scale img_gray = cv2.imread('test.jpg',cv2.IMREAD_GRAYSCALE) print('추출 한글 : ',pytesseract.image_to_string(im,config = config)) print('그레이 변환 후 추출 한글 : ' ,pytesseract.image_to_string(img_gray,config = con..
단어를 벡터화 하는 방법 중 하나인 페이스북에서 개발한 FastText. Word2Vec의 확장 매커니즘이라고 볼 수 있다. 그러나 두 방법의 가장 큰 차이는 Word2Vec은 단어를 쪼개질 수 없는 단위로 생각하는 반면, FastText는 하나의 단어안에서도 여러 단어들이 존재하는 것으로 간주한다. 이처럼 단어 안의 여러 단어를 내부 단어 (subword)라고 한다. FastText에서는 각 단어는 글자 단위 n-gram의 구성으로 취급합니다. n을 몇으로 결정하는지에 따라서 단어들이 얼마나 분리되는지 결정됩니다. 예를 들어서 n을 3으로 잡은 트라이그램(tri-gram)의 경우, apple은 app, ppl, ple로 분리하고 이들을 벡터로 만듭니다. 시작과 끝을 의미하는 를 도입하여 아래의 5개 내..