목록정규표현식 (3)
Note
크롤링은 아니지만 영상과 스크립트를 다운 받을 수 있는 라이브러리가 있다. 라이브러리를 사용해서 스크립트를 가져와봤다. 라이브러리와 정규표현식을 사용해서 텍스트만을 가져왔다. pip install pytube from pytube import YouTube import re video_url = '' # 비디오 링크 yt = YouTube(video_url) caption = yt.captions.get_by_language_code('ko') if caption == None: caption = yt.captions.all()[0] script = str(caption.xml_captions) pattern = r']*>|[^\w\s가-힣]+' text = re.sub(pattern, '', scrip..
문제 설명 카카오에 입사한 신입 개발자 네오는 "카카오계정개발팀"에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. "네오"에게 주어진 첫 업무는 새로 가입하는 유저들이 카카오 아이디 규칙에 맞지 않는 아이디를 입력했을 때, 입력된 아이디와 유사하면서 규칙에 맞는 아이디를 추천해주는 프로그램을 개발하는 것입니다. 다음은 카카오 아이디의 규칙입니다. 아이디의 길이는 3자 이상 15자 이하여야 합니다. 아이디는 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.) 문자만 사용할 수 있습니다. 단, 마침표(.)는 처음과 끝에 사용할 수 없으며 또한 연속으로 사용할 수 없습니다. "네오"는 다음과 같이 7단계의 순차적인 처리 과정을 통해 신규 유저가 입력한 아이..
1. 정규 표현식이란? 특정 규칙이 있는 텍스트 데이터를 좀 더 간편하고 빠르게 전처리 할 수 있는 방식이다. 2. 문법 문자 규칙 의미 \(역슬래쉬) 문자 자체 \d 모든 숫자( = [0-9] ) \D 숫자를 제외한 모든 문자 ( = [^0-9] ) \s 공백을 의미 ( = [\t\n\r\f\v] ) \S 공백을 제외한 문자 ( = [^\t\n\r\f\v] ) \w 문자 또는 숫자 ( = [a-zA-z0-9] ) \W 문자 또는 숫자가 아닌 문자 ( = [^a-zA-z0-9] ) ^문자가 오면 해당하는 것을 제외하고 라는 것을 알 수 있다. 특수 문자 의미 . 한 개의 임의 문자 ( \n은 제외 ) ? 앞에 문자가 있을수도 없을수도 있다.( 0 or 1개 ) * 앞에 문자가 무한개로 있을수도 없을수도 ..