Note

커스텀 URL 주소 크롤링 본문

etc/Crawling

커스텀 URL 주소 크롤링

알 수 없는 사용자 2022. 6. 27. 21:37
728x90

커스텀 주소 예시) 이스타 TV

* 예시는 아무런 상관이 없는 제가 좋아하는 채널입니다.

커스텀 하지 않은 URL : https://www.youtube.com/channel/UCn9mJ4htO64-1osMWYu9k5Q

커스텀 URL : https://www.youtube.com/c/이스타TV

channel_id = UCn9mJ4htO64-1osMWYu9k5Q

session = HTMLSession()

result_df = pd.DataFrame()
result = []
result2 = []

 
video_url = "https://www.youtube.com/channel/{}".format(channel_id)
response = session.get(video_url)
soup = bs(response.html.html, "html.parser")
    
   try:
    
       data = re.search(r"var ytInitialData = ({.*?});", soup.prettify()).group(1)
       data_json = json.loads(data)
        
       channelPrimaryInfoRenderer = data_json['contents']['twoColumnBrowseResultsRenderer']['tabs'][0]
       browseId = channelPrimaryInfoRenderer['tabRenderer']['endpoint']['browseEndpoint']['browseId']
       canonicalBaseUrl = channelPrimaryInfoRenderer['tabRenderer']['endpoint']['browseEndpoint']['canonicalBaseUrl']
       result.append(browseId)
       result2.append(canonicalBaseUrl)
    
   except:
   
       continue

result_df['channel_id'] = result
result_df['custom_channel_ids'] = result2
channel_id custom_channel_id
UCn9mJ4htO64-1osMWYu9k5Q /c/이스타TV
Comments