목록etc/Crawling (25)
Note
크롤링은 아니지만 영상과 스크립트를 다운 받을 수 있는 라이브러리가 있다. 라이브러리를 사용해서 스크립트를 가져와봤다. 라이브러리와 정규표현식을 사용해서 텍스트만을 가져왔다. pip install pytube from pytube import YouTube import re video_url = '' # 비디오 링크 yt = YouTube(video_url) caption = yt.captions.get_by_language_code('ko') if caption == None: caption = yt.captions.all()[0] script = str(caption.xml_captions) pattern = r']*>|[^\w\s가-힣]+' text = re.sub(pattern, '', scrip..

유튜브 제목 옆 줄 끝에 점 세개를 누르면 스크립트 표시가 있다. 스크립트는 유튜브에서 자동적으로 생성해주는 자막이 표시가 되어있다. 한국어 자막은 성능이 좋지 않지만 영어 자막은 꽤 잘 잡는 것으로 알고 있다. import pandas as pd import json import re import time from tqdm import tqdm import pymysql from datetime import date from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.common.ke..
!pip install tweepy # 개발자 계정으로 받은 토큰 입력 consumer_key = "" consumer_secret = "" access_token = "" access_token_secret = "" import tweepy auth = tweepy.OAuthHandler(consumer_key, consumer_secret) auth.set_access_token(access_token, access_token_secret) api = tweepy.API(auth) # 검색하고 싶은 키워드 keyword = "" # 결과 담을 리스트 result = [] # 트윗 가져오기 tweets = api.search(q = keyword, result_type = 'recent', count ..
# 빈 데이터 프레임 생성 insert_df = pd.DataFrame() n_counts = 0 # df_channel - 채널id 데이터 프레임 for channel_id in df_channel['channel_id']: try: video_url = "https://www.youtube.com/channel/{}/community".format(channel_id) session = HTMLSession() response = session.get(video_url) n_counts += 1 if(response.status_code == 429): print(response) soup = bs(response.html.html, "html.parser") data = re.search(r"var..
inf = {} cnt = 0 MAX_SLEEP_TIME = 10 for i in tqdm(id): if cnt % 9 == 0: time.sleep(10) cnt += 1 inf_info = {} try: driver.get("https://www.instagram.com/" + i) rand_value = np.random.randint(3, MAX_SLEEP_TIME) time.sleep(rand_value) body = driver.find_element_by_tag_name('body') html0 = driver.page_source # 현재 페이지 html html = bs(html0,'html.parser') # intro intro = html.find_all('span', {'class..