기트리의 IT, 생활정보 블로그

게시판 목록 | 상세보기

파이썬 이용 윕크롤링 방법
안녕하세요? 파이썬을 한참 배우고 있는데요. 여기 님 블로그에서 배워서 이것 저것 하다가 테스트 삼아서 아래 사이트에서 테이틀만 가져오는데 성공 했습니다. ******************************************************* # kins01.py # 패키지명.모듈명 import urllib.request from bs4 import BeautifulSoup #웹서버에 실행을 요청해서 문자열로 받기 data = urllib.request.urlopen("http://www.kins.re.kr/nussam/oba/OvseaBassAnalsSts.do") #검색이 용이한 객체 soup = BeautifulSoup(data, "html.parser") # <td class="subject"> # 영문 및 한글 타이틀 추출 # 해외 안전기준 분석 타이틀 추출 및 리스트업 # </td> kinsss = soup.find_all("td", class_="subject") print("갯수:{0}".format(len(kinsss)) ) f = open("c:\\work\\kins01.txt", "wt", encoding="utf-8") for tag in kinsss: subject = tag.find("div").text print(subject) link = tag.find("div")["style"] print(link) f.write(subject + "\n") f.close() ***************************************************************** 그런데 https://www.nssc.go.kr/ko/cms/FR_CON/index.do?MENU_ID=2280 사이트의 타이틀만 가져오고 싶은데 어케 해야 하나요? 제가 성공한 사이트 처럼 해도 안되서요.. ㅠㅠ 도와주시면 넘넘 감사하겠습니다. ㅠㅠ 버드나무 \| 글 수정 21.07.02. 15:52

파이썬 이용 윕크롤링 방법

안녕하세요? 파이썬을 한참 배우고 있는데요.
여기 님 블로그에서 배워서 이것 저것 하다가
테스트 삼아서 아래 사이트에서
테이틀만 가져오는데 성공 했습니다.

*********************************************************
# kins01.py
# 패키지명.모듈명
import urllib.request
from bs4 import BeautifulSoup

#웹서버에 실행을 요청해서 문자열로 받기
data = urllib.request.urlopen("http://www.kins.re.kr/nussam/oba/OvseaBassAnalsSts.do")

#검색이 용이한 객체
soup = BeautifulSoup(data, "html.parser")

# <td class="subject">
# 영문 및 한글 타이틀 추출
# 해외 안전기준 분석 타이틀 추출 및 리스트업
# </td>
kinsss = soup.find_all("td", class_="subject")
print("갯수:{0}".format(len(kinsss)) )

f = open("c:\\work\\kins01.txt", "wt", encoding="utf-8")
for tag in kinsss:
subject = tag.find("div").text
print(subject)
link = tag.find("div")["style"]
print(link)
f.write(subject + "\n")

f.close()
*******************************************************************

그런데
https://www.nssc.go.kr/ko/cms/FR_CON/index.do?MENU_ID=2280

사이트의 타이틀만 가져오고 싶은데 어케 해야 하나요? 제가 성공한 사이트 처럼
해도 안되서요.. ㅠㅠ
도와주시면 넘넘 감사하겠습니다. ㅠㅠ

버드나무 | 글 수정
21.07.02. 15:52

답글들

작성자	답글	작성일
kitle	해당 페이지의 게시판(테이블)의 표를 가져오고 싶으신 것이지요? 데이터 추출이 안되는 부분은 동적 웹 크롤링과 관련된 부분인것 같습니다. https://liveyourit.tistory.com/15 를 참고 하시어 필요에 따라 selenium을 활용해 보실것을 추천합니다. 아니면 다만 해당 사이트를 살펴보니 https://www.nssc.go.kr/ajaxf/FR_BBS_SVC/BBSViewList.do 로 접근하여 가능할것도 같습니다. https://www.nssc.go.kr/ajaxf/FR_BBS_SVC/BBSViewList.do?pageNo=1&pagePerCnt=15&MENU_ID=2280&CONTENTS_NO=&SITE_NO=2&BOARD_SEQ=39&BBS_SEQ=&USER_NAME=&TEL_NO=&WRITER_DI=&_csrf=&CATE_SEQ=&SEARCH_FLD=&SEARCH= 를 브라우저에서 입력해보면 SUBJECT 부분에 타이틀이 보일 것입니다. 크롬에서 개발자모드를 켜시고 Network 탭을 참고하시면 도움이 될것 같습니다. 의 데이터를 가져와서 SUBJECT 만 정리하면 될것 같습니다. 페이지 네이션 부분과 json 처리 부분을 함께 봐야 하는 부분이 수반될것 같습니다. 명쾌한 해답이 되지 못한것 같네요. 더 쉽고 편한 방법도 아마 있을거에요.	21.07.08. 01:37

게시판 목록 | 상세보기

답글들

21.07.08. 01:37