목록Note (462)
Note
크롤링은 아니지만 영상과 스크립트를 다운 받을 수 있는 라이브러리가 있다. 라이브러리를 사용해서 스크립트를 가져와봤다. 라이브러리와 정규표현식을 사용해서 텍스트만을 가져왔다. pip install pytube from pytube import YouTube import re video_url = '' # 비디오 링크 yt = YouTube(video_url) caption = yt.captions.get_by_language_code('ko') if caption == None: caption = yt.captions.all()[0] script = str(caption.xml_captions) pattern = r']*>|[^\w\s가-힣]+' text = re.sub(pattern, '', scrip..
유튜브 제목 옆 줄 끝에 점 세개를 누르면 스크립트 표시가 있다. 스크립트는 유튜브에서 자동적으로 생성해주는 자막이 표시가 되어있다. 한국어 자막은 성능이 좋지 않지만 영어 자막은 꽤 잘 잡는 것으로 알고 있다. import pandas as pd import json import re import time from tqdm import tqdm import pymysql from datetime import date from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.common.ke..
import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained( 'kakaobrain/kogpt', revision='KoGPT6B-ryan1.5b-float16', # or float32 version: revision=KoGPT6B-ryan1.5b bos_token='[BOS]', eos_token='[EOS]', unk_token='[UNK]', pad_token='[PAD]', mask_token='[MASK]' ) model = AutoModelForCausalLM.from_pretrained( 'kakaobrain/kogpt', revision='Ko..
set sql_safe_updates=0; # 에러 코드 전 실행