목록Deep Learning/NLP (23)
Note
import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained( 'kakaobrain/kogpt', revision='KoGPT6B-ryan1.5b-float16', # or float32 version: revision=KoGPT6B-ryan1.5b bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]' ) model = AutoModelForCausalLM.from_pretrained( 'kakaobrain/kogpt', revision='Ko..
def isEnglishOrKorean(input_s): k_count = 0 e_count = 0 for c in input_s: if ord('가')
모델 설계 임베딩 벡터 차원 : 10 은닉 상태의 크기 : 32 해당 모델은 마지막 시점에서 모든 가능한 단어 중 하나의 단어를 예측하는 다중 클래스 분류 문제를 수행하는 모델 따라서 다중 클래스 분류 문제는 활성화 함수로 소프트맥스 함수를 사용한다. 손실 함수는 크로스 엔트로피 함수 사용. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding, Dense, SimpleRNN embedding_dim = 10 hidden_units = 32 model = Sequential() model.add(Embedding(vocab_size, embedding_dim)) model.add(SimpleR..
첫 번째 문장 : 경마장에 있는 말이 뛰고 있다 두 번째 문장 : 그의 말이 법이다 세 번째 문장 : 가는말이 고와야 오는 말이 곱다 1. X : 경마장에 Y: 있는 2. X : 경마장에 있는 Y : 말이 3. X : 경마장에 있는 말이 Y : 뛰고 4. X : 경마장에 있는 말이 뛰고 Y : 있다 5. X : 그의 Y : 말이 6. X : 그의 말이 Y : 법이다 7. X : 가는 Y : 말이 8. X : 가는 말이 Y : 고와야 9. X : 가는 말이 고와야 Y : 오는 10. X : 가는 말이 고와야 오는 Y : 말이 11. X : 가는 말이 고와야 오는 말이 Y : 곱다 1 ~ 11번은 모델이 문맥을 학습하기 위해 문장의 앞의 단어들을 전부 고려하여 학습하도록 데이터를 재구성한 모습. import..
!pip install git+https://github.com/ssut/py-hanspell.git from hanspell import spell_checker sent = "맞춤법 틀리면 외 않되? 내마음대로쓰면돼지 " spelled_sent = spell_checker.check(sent) hanspell_sent = spelled_sent.checked print(hanspell_sent) 맞춤법 틀리면 왜 안돼? 내 마음대로 쓰면 되지 # 출력 결과 네이버 한글 맞춤법 검사기를 토대로 만들어진 한국어 전처리 패키지