AI/DataAnalysis

Python_웹 크롤링

oaho 2023. 2. 20. 01:06
반응형

웹페이지 종류 & 파싱 방법

 

정적 페이지 크롤링할 때   ->  html 문자열로 받아서 파싱

동적 페이지 크롤링할 때  ->  json 문자열로 받아서 파싱

 

 

동적 페이지 크롤링 실습)  네이버 증권 -> 코스피 -> 일별시세 데이터 수집

 

1. ctrl + shift + i => 개발자 도구

 

 

 

2. 페이지 분석하기

 

page, pagesize => 변경할 수 있음 (변수로 사용)

GET방식으로 데이터 가져와야함

 

 

 

3.  1페이지 중에 10개 데이터 가져오기

 

url은 headers부분에 있는 url 가져오기

 

 

 

4. 서버에 데이터 요청 request.get(url)

  • response에 데이터의 status code가 200이 나오는지 확인
  • 403이나 500 나오면 request가 잘못되거나 웹 서버에서 수집이 안되도록 설정 된 것임

 

response안에 있는 내용 확인 .text

 

 

 

5.  서버에서 받은 데이터 파싱 json(str) -> list 타입으로 변경

 

 

크롤링한 데이터를 데이터 프레임으로 만들기 끝~

반응형

'AI > DataAnalysis' 카테고리의 다른 글

데이터프레임의 데이터의 구성 확인하기  (0) 2023.04.11
결측치 처리  (0) 2023.02.20
Python_이변량분석  (0) 2023.02.15
Python_시계열 데이터, 시각화라이브러리  (0) 2023.02.09
Python_데이터 처리  (0) 2023.02.08