- 질문 게시판입니다.
Date | 18/02/12 21:39:55 |
Name | 호라타래 |
File #1 | 크롤링_코드_1.PNG (71.6 KB), Download : 12 |
File #2 | 크롤링_코드_2.PNG (80.8 KB), Download : 7 |
Subject | 웹사이트 분석 / 크롤링 관련 질문 있습니닷 |
http://www.genie.co.kr/detail/songInfo?xgnm=87759645 파이썬을 이용해서 노래 관련된 정보들을 크롤링/분석하려고 해요. 이미지에 나와있듯이 for문을 이용해서 8~9천만개 정도 존재하는 songInfo 페이지를 하나씩 긁어들이게 만들었는데, 이 중 상당수는 빈페이지입니다. 지금과 같은 코드는 시간도 오래 걸리고, 비효율적이라 개선 방안을 고민하는 중이에요. 1) 셀레니움을 이용하지 않아도 Alert 창을 컨트롤 할 수 있나요? http://www.genie.co.kr/detail/songInfo?xgnm=1 페이지를 눌러보면 보이듯이 Alert창이 뜨기 때문에, 셀레니움을 이용해서 컨트롤을 해주고 있어요. 근데 속도가 상당히 느리더라고요. BeautifulSoup만 써서 정적 스크래핑을 하면 속도가 개선될 듯한데, Alert를 처리할 수 있는 방법이 있을까요? Ajax인지 아닌지도 모르겠네요 ㅋㅋㅋㅋㅋㅋ 2) 지금 코드를 효율화 할 수 있는 방법이 있을까요? 향후 전처리를 염두에 두고 코드를 짜기는 했는데, 이게 효율적인지 아닌지도 감이 안 잡히네요. 3) 구글 크롬 개발자 도구 외에 사이트 구조를 분석할 수 있는 방법이 있을까요? 비어있지 않은 songInfo 페이지를 사전에 파악한 후, 인덱스를 부여해서 for문을 돌리면 훨씬 효율적이지 않을까 싶은데, 구글 크롬 개발자 도구로는 파악을 못하겠습니당 조언 부탁드립니다ㅠㅠ 영어 사이트여도 활용 가능하니 힌트/키워드라도 얻을 수 있다면 흑흑... 맞다. 제 작업 환경은 램 4G, CPU 2.93Ghz, winddow7, Anaconda3(32bit) - Jupyter notebook - Python 3.6입니다. 설날 전까지는 이 환경에서 작업을 해야 해요. 코드 정리되고 나면 프롬프트 창에서 파이썬을 돌리려고요 8ㅅ8 0
|