본문 바로가기
반응형

파이썬크롤링4

[T.I.L] : 23 일일 배움을 위한 Today I Learned ! Python 파이썬으로 웹 크롤링을 했습니다. 웹 크롤링은 자바로도 해 봤는데 파이썬이 확실히 더 간단하다고 느꼈습니다. 정적 웹과 동적 웹 모두 다 크롤링을 했고 다음엔 조금 더 활용을 해보려고 합니다. 아래 내용을 첨부합니다. 2021.11.17 - [프로그래밍언어/Python] - [Python] : 웹 크롤링 [Python] : 웹 크롤링 웹 크롤링 파이참에서 상단 메뉴 FIle 에서 Settings를 눌러줍니다. Project Interpreter을 선택해 주고 좌측 상단에 + 버튼을 눌러줍니다. bs4를 선택하고 Install을 합니다. 성공 메시지가 떴습니다. 정상적 ohju.tistory.com 2021.11.17 - [프로그래밍언어/Pyt.. 2021. 11. 17.
[Python] : 동적 웹 페이지 크롤링 사전 준비 웹 페이지 분석하기 커피 브랜드 중 하나인 커피빈 전국 매장 정보를 크롤링 합니다. https://www.coffeebeankorea.com/store/store.asp COFFEE BEAN STORE COFFEE BEAN www.coffeebeankorea.com 커피빈 매장 찾기 페이지에 접속합니다. 지역 검색 탭에서 서울을 선택하면 매장 70개 목록이 표시되고 서울을 선택하기 전 마우스를 올리면 좌측 하단에 자바스크립트가 표시됩니다. 시/도를 선택하면 자바스크립트의 storeLocal2()함수가 호출되어 매장 목록이 표시됩니다. HTML 소스를 분석해 보면 HTML 소스에는 조회된 매장 목록이 없고 "시/도"를 선택하면 함수를 호출하여 매장 목록을 표시하는 동적 웹 페이지 구조입니다. 버.. 2021. 11. 17.
[Python] : 정적 웹 페이지 크롤링 정적 웹 페이지 크롤링 국내 커피 브랜드 중 하나인 할리스 커피의 전국 매장 정보를 크롤링합니다. https://www.hollys.co.kr/robots.txt 웹 페이지 크롤링하기 전에 크롤링 허용 여부를 확인하기 위해 위 링크로 들어가 봅니다. User_agent: * Allow: / 또는 User-agent: * Disallow: 위 두개는 모든 접근을 허용합니다. User-agent:* Disallow: / 모든 접근을 금지합니다. User-agent:* Disallow:/user/ 특정 디렉토리만 접근을 금지합니다. 만약 robots.txt 파일이 없다면 수집에 대한 정책이 없으니 크롤링해도 된다는 의미로 받아들이면 됩니다. 매장 검색 페이지에서 HTML 소스를 분석해 보면 태그가 매장 정보 .. 2021. 11. 17.
[Python] : 웹 크롤링 웹 크롤링 파이참에서 상단 메뉴 FIle 에서 Settings를 눌러줍니다. Project Interpreter을 선택해 주고 좌측 상단에 + 버튼을 눌러줍니다. bs4를 선택하고 Install을 합니다. 성공 메시지가 떴습니다. 정상적으로 다운이 됐습니다. 네이버에서 특정 글자 추출하기 import urllib.request url = "https://www.naver.com/" html = urllib.request.urlopen(url) print(html.read()) 웹에서 데이터를 받아오려면 http request라는 요청을 보내서 받아와야 합니다. 파이썬에서 웹의 특정 주소로 요청을 보내는 기능이 urlib.request입니다. urlib.reqeuest의 urlopen 함수로 네이버 첫 페.. 2021. 11. 17.
반응형