아래와 같은 python 예제 구문을 실행시켜 보았습니다. alexa 홈페이지로 부터 대한민국 사이트 접속 순위를 알아보는 웹 스크래이핑에 대한 예제입니다. ("데이터 분석을 위한 파이썬 철저 입문"에서 응용)
import requests
from bs4 import BeautifulSoup
url = "https://www.alexa.com/TOPSITES/COUNTRIES/KR"
html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, "lxml")
website_ranking = soup_website_ranking.select('p a')
website_ranking_name = []
for website_ranking_element in website_ranking:
website_ranking_name.append(website_ranking_element.get_text())
for i in range(10):
print("{0}: {1}".format(i+1, website_ranking_name[i]))
실행 결과 아래와 같습니다. 네이버가 1위 자리를 내주었다더니 정말 그렇네요. 유튜브, 티스토리의 약진이 무섭습니다. 이외에 정말 놀라운 것은 중국 site 접속 순위가 상위에 상당수 랭크된 것입니다. 교역 때문인건지 국내 체류하는 중국분들이 많은 건지 엄청나네요. 특히 Tmall이라는 사이트는 이번에 처음 접속해봤는데 쇼핑 사이트 같습니다만 접속 순위가 꽤 높네요. 이런 게 데이터로 보는 세상이군요.
1: this explanation
2: Google.com
3: Naver.com
4: Youtube.com
5: Daum.net
6: Tistory.com
7: Tmall.com
8: Google.co.kr
9: Kakao.com
10: Sohu.com
11: Facebook.com
12: Amazon.com
13: Qq.com
14: Namu.wiki
15: Wikipedia.org
16: Login.tmall.com
17: Coupang.com
18: Taobao.com
19: Netflix.com
20: Jd.com
21: 360.cn
22: Baidu.com
23: Yahoo.com
24: Dcinside.com
25: Microsoft.com
26: Pages.tmall.com
27: Bing.com
28: Gmarket.co.kr
29: Apple.com
30: Twitch.tv
31: Sina.com.cn
32: Weibo.com
33: Donga.com
34: Office.com
35: Instagram.com
36: Adobe.com
37: 11st.co.kr
38: Nexon.com
39: Yna.co.kr
40: Stackoverflow.com
41: Ebay.com
42: Theepochtimes.com
43: Nate.com
44: Ruliweb.com
45: Auction.co.kr
46: Amazon.co.uk
47: Dropbox.com
48: Chosun.com
49: Msn.com
50: Inven.co.kr
'파이썬(PYTHON)' 카테고리의 다른 글
공공 정보를 이용한 OPEN API 활용 (0) | 2020.08.01 |
---|---|
requests 및 BeautifulSoup 응용2 (0) | 2020.07.27 |
pyvisa를 이용한 실무 예제 (0) | 2020.07.14 |
파이썬(PYTHON)을 활용한 자동 구매 프로그램(매크로) 2 (0) | 2020.06.21 |
파이썬(PYTHON)을 활용한 자동 구매 프로그램(매크로) 1 (0) | 2020.06.17 |