아래와 같은 python 예제 구문을 실행시켜 보았습니다. alexa 홈페이지로 부터 대한민국 사이트 접속 순위를 알아보는 웹 스크래이핑에 대한 예제입니다. ("데이터 분석을 위한 파이썬 철저 입문"에서 응용)

import requests
from bs4 import BeautifulSoup

url = "https://www.alexa.com/TOPSITES/COUNTRIES/KR"

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, "lxml")
website_ranking = soup_website_ranking.select('p a')
website_ranking_name = []
for website_ranking_element in website_ranking:
website_ranking_name.append(website_ranking_element.get_text())
for i in range(10):
print("{0}: {1}".format(i+1, website_ranking_name[i]))

실행 결과 아래와 같습니다. 네이버가 1위 자리를 내주었다더니 정말 그렇네요. 유튜브, 티스토리의 약진이 무섭습니다. 이외에 정말 놀라운 것은 중국 site 접속 순위가 상위에 상당수 랭크된 것입니다. 교역 때문인건지 국내 체류하는 중국분들이 많은 건지 엄청나네요. 특히 Tmall이라는 사이트는 이번에 처음 접속해봤는데 쇼핑 사이트 같습니다만 접속 순위가 꽤 높네요. 이런 게 데이터로 보는 세상이군요.

1: this explanation

2: Google.com

3: Naver.com

4: Youtube.com

5: Daum.net

6: Tistory.com

7: Tmall.com

8: Google.co.kr

9: Kakao.com

10: Sohu.com

11: Facebook.com

12: Amazon.com

13: Qq.com

14: Namu.wiki

15: Wikipedia.org

16: Login.tmall.com

17: Coupang.com

18: Taobao.com

19: Netflix.com

20: Jd.com

21: 360.cn

22: Baidu.com

23: Yahoo.com

24: Dcinside.com

25: Microsoft.com

26: Pages.tmall.com

27: Bing.com

28: Gmarket.co.kr

29: Apple.com

30: Twitch.tv

31: Sina.com.cn

32: Weibo.com

33: Donga.com

34: Office.com

35: Instagram.com

36: Adobe.com

37: 11st.co.kr

38: Nexon.com

39: Yna.co.kr

40: Stackoverflow.com

41: Ebay.com

42: Theepochtimes.com

43: Nate.com

44: Ruliweb.com

45: Auction.co.kr

46: Amazon.co.uk

47: Dropbox.com

48: Chosun.com

49: Msn.com

50: Inven.co.kr


+ Recent posts