Note
Youtube 스크립트(2) 본문
728x90
크롤링은 아니지만 영상과 스크립트를 다운 받을 수 있는 라이브러리가 있다.
라이브러리를 사용해서 스크립트를 가져와봤다.
라이브러리와 정규표현식을 사용해서 텍스트만을 가져왔다.
pip install pytube
from pytube import YouTube
import re
video_url = '' # 비디오 링크
yt = YouTube(video_url)
caption = yt.captions.get_by_language_code('ko')
if caption == None:
caption = yt.captions.all()[0]
script = str(caption.xml_captions)
pattern = r'<[^>]*>|[^\w\s가-힣]+'
text = re.sub(pattern, '', script)
text = text.replace('\n\n\n','\n')
text
'etc > Crawling' 카테고리의 다른 글
Youtube 스크립트 (0) | 2023.03.23 |
---|---|
트위터 api 활용 tweet 가져오기 (1) | 2022.09.09 |
유튜브 커뮤니티 텍스트 크롤링 (0) | 2022.08.18 |
인스타그램 크롤링 (9) - 계정 팔로우, 팔로워, 게시글 (0) | 2022.07.14 |
인스타그램 크롤링 (8) - 사진 정보 크롤링 (0) | 2022.07.13 |
Comments