재귀적으로 HTML 페이지를 처리하는 예제

2020. 12. 3. 02:03

"파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문" (*위키북스)중 스크래핑 관련 예제를 참고합니다. 설명이 자세하고 예제 설명도 비교적 잘되어 나중에라도 참고할까 싶어서 남깁니다.

from bs4 import BeautifulSoup
from urllib.request import *
from urllib.parse import *
from os import makedirs
import os.path, time, re

proc_files = {} # 이미 처리한 파일인지 확인하기 위한 빈 변수
def enum_links(html, base) :
    soup = BeautifulSoup(html, "html.parser")
    print("soup = ", soup)
    links = soup.select("link[rel='stylesheet']")
    print("links = ", links)
    links += soup.select("a[href]")
    print("links+ = ", links)
    result = []
    for a in links : # href 속성을 추출하고, 링크를 절대 경로로 변환
        href = a.attrs['href']
        url = urljoin(base, href)
        result.append(url)
    return result

def download_file(url) :
    o = urlparse(url)
    print("o = ", o)
    savepath = "./" + o.netloc + o.path
    if re.search(r"/$", savepath) :
        savepath += "index.html"
    savedir = os.path.dirname(savepath)
    if os.path.exists(savepath) : # 모두 다운로드되었는지 확인
        return savepath 
    if not os.path.exists(savedir) : # 다운로드 받을 폴더 생성
        print("mkdir = ", savedir)
        makedirs(savedir)
    try : # 파일 다운받기
        print("download = ", url)
        urlretrieve(url, savepath)
        time.sleep(1)
        return savepath
    except :
        print("download fail : ", url)
        return None

def analyze_html(url, root_url) : # html을 분석하고 다운받는 함수
    savepath = download_file(url) 
    if savepath is None :
        return
    if savepath in proc_files : # 이미 다운로드 받았다면 실행하지 않음.
        return 
    proc_files[savepath] = True
    print("analyze_html =", url)
    html = open(savepath, "r", encoding = "utf-8").read()
    links = enum_links(html, url)
    for link_url in links :
        if link_url.find(root_url) != 0 :
            if not re.search(r".css$", link_url) :
                continue
        if re.search(r".(html|htm)$", link_url) :
            analyze_html(link_url, root_url)
            continue
        download_file(link_url)

if __name__ == "__main__" :
    url = "https://docs.python.org/3.5/library/"
    analyze_html(url, url)

저작자표시 비영리 동일조건 (새창열림)

'파이썬(PYTHON)' 카테고리의 다른 글

python 문자열 응용 (0)	2021.02.16
아나콘다 가상 환경 만들기, 구글 코랩 접속 및 캐글 노트북 사용법 (0)	2021.01.08
파이썬의 비동기2 (0)	2020.08.31
파이썬의 비동기1 (0)	2020.08.30
파이썬의 멀티프로세스(multiprocessing)3 (0)	2020.08.30

엉뚱뽀짝 닌텐도 스위치, 주식, 파이썬(PYTHON)등

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

엉뚱뽀짝

재귀적으로 HTML 페이지를 처리하는 예제

'파이썬(PYTHON)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역