크롤링 9

파이썬(Python) - 스크래핑 ④ selenium을 이용한 크롤링

selenium 웹브러우저를 컨트롤하여 웹UI(User Interface)를 자동화하는 도구 pip install selenium https://chromedriver.chromium.org/downloads from selenium import webdriver 1. 사이트 접속 및 스크린샷 찍기 # chromium으로 크롬 브라우저 열기 browser = webdriver.Chrome('C:/chromedriver.exe') # 크롬 브라우저 내부 대기 초시간 browser.implicitly_wait(2) # url 접속 browser.get("https://truman.tistory.com/") # 접속한 페이지의 url정보 확인 print(browser.page_source) # 접속한 페이지 ..

파이썬(Python) - 크롤링 연습 ② 국민 청원 청원 목록 수집(추천순)

# 국민 청원 접속 및 청원 목록 url 수집 url = [] for i in range(1,21): html = urlopen("https://www1.president.go.kr/petitions/best?page={}".format(i)) soup = BeautifulSoup(html,'html.parser') for j in soup.findAll('div',{'class':'bl_body'}): for k in j.findAll('div',{'class':'bl_subject'}): a = k.find('a')['href'] if bool(re.match('/[a-z].*/[0-9].*\?navigation=best',a)): url.append(a) # 청원 제목 수집 title = [] fo..

파이썬(Python) - 크롤링 연습 ① 사람인 빅데이터 채용 조건 수집

1. 채용 조건 wordcloud로 만들기 browser = webdriver.Chrome('C:/chromedriver.exe') browser.get("http://www.saramin.co.kr/zf_user/search/recruit?search_area=main&search_done=y&search_optional_item=n&searchType=search&searchword=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0&recruitPage=1") time.sleep(3) soup = BeautifulSoup(browser.page_source,'html.parser') job = [] for i in soup.findAll('div',class_='item_recruit..

파이썬(Python) - 스크래핑 ③ JSON을 이용한 크롤링

JSON(Java Object Notation) 텍스트 데이터를 기반으로 한다. 자바 스크립트에서 사용하는 객체 표기 방법을 기반으로 한다. 자바스크립트 전용 데이터 형식은 아니고 다양한 소프트웨어와 프로그래밍 언어끼리 데이터 교환할때 샤용을 많이 한다. # 파이썬에서는 json 라이브러리를 기본으로 제공한다. import json import urllib.request as req # url 오픈하고 json 형식으로 불러오기 url = "http://www.krei.re.kr:18181/chart/main_chart/index/kind/W/sdate/2020-01-01/edate/2020-03-31" res = req.urlopen(url) json_obj = json.load(res) json_ob..

파이썬(Python) - 스크래핑 ② 웹 스크래핑/크롤링 연습, wordcloud사용

기본 용어 http(hyper text transfer protocol) hyper text는 마우스로 클릭하면 다른페이지로 이동하는 기능 http는 다음에 나올 html로 작성되어 있는 hyper text를 전송하기 위한 프로토콜(규약, 약속) URL(Uniform Resource Locator) 인터넷 주소 HTML(Hyper Text Markup Language) 웹페이지를 작성하는 문법 언어 F12(개발자 도구)눌러서 볼수 있다. 웹 브라우저(web browser) html을 보기 좋게 출력하는 응용 소프트웨어 웹 스크래핑 연습 BeautifulSoup 데이터를 추출하는데 필요한 기능이 들어 있는 라이브러리, 파싱(parsing)라이브러리 라고도 한다. 파싱은 받아온 데이터에서 필요한 내용만 추출..

반응형