반응형
웹페이지 종류 & 파싱 방법
정적 페이지 크롤링할 때 -> html 문자열로 받아서 파싱
동적 페이지 크롤링할 때 -> json 문자열로 받아서 파싱
동적 페이지 크롤링 실습) 네이버 증권 -> 코스피 -> 일별시세 데이터 수집
1. ctrl + shift + i => 개발자 도구
2. 페이지 분석하기
page, pagesize => 변경할 수 있음 (변수로 사용)
GET방식으로 데이터 가져와야함
3. 1페이지 중에 10개 데이터 가져오기
url은 headers부분에 있는 url 가져오기
4. 서버에 데이터 요청 request.get(url)
- response에 데이터의 status code가 200이 나오는지 확인
- 403이나 500 나오면 request가 잘못되거나 웹 서버에서 수집이 안되도록 설정 된 것임
response안에 있는 내용 확인 .text
5. 서버에서 받은 데이터 파싱 json(str) -> list 타입으로 변경
크롤링한 데이터를 데이터 프레임으로 만들기 끝~
반응형
'AI > DataAnalysis' 카테고리의 다른 글
데이터프레임의 데이터의 구성 확인하기 (0) | 2023.04.11 |
---|---|
결측치 처리 (0) | 2023.02.20 |
Python_이변량분석 (0) | 2023.02.15 |
Python_시계열 데이터, 시각화라이브러리 (0) | 2023.02.09 |
Python_데이터 처리 (0) | 2023.02.08 |