Note

Youtube 스크립트(2) 본문

etc/Crawling

Youtube 스크립트(2)

알 수 없는 사용자 2023. 4. 7. 19:10
728x90

크롤링은 아니지만 영상과 스크립트를 다운 받을 수 있는 라이브러리가 있다.

라이브러리를 사용해서 스크립트를 가져와봤다.

라이브러리와 정규표현식을 사용해서 텍스트만을 가져왔다.

pip install pytube
from pytube import YouTube
import re

video_url = '' # 비디오 링크
yt = YouTube(video_url)

caption = yt.captions.get_by_language_code('ko')
if caption == None:
    caption = yt.captions.all()[0]
    
script = str(caption.xml_captions)
pattern = r'<[^>]*>|[^\w\s가-힣]+'
text = re.sub(pattern, '', script)
text = text.replace('\n\n\n','\n')
text
Comments