본문 바로가기
반응형

[python]데이터 분석11

[python] 기상청 RSS 데이터를 Json 파일로 저장하기 먼저 JSON과 YAML에 대해 알아보고 시작해보자JSON 이란?1. JSON이란 JavaScript Object Notation의 약자로 쉽게 말해 자바스크립트의 객체 표기법이다. 2. XML을 대체하여 많이 사용된다. 그 이유는 사람과 기계 모두 이해하기 쉬운 표현식이며 용량도 작은편이다.3. JSON은 단지 데이터를 표현하는 방법일뿐 언어 또는 프로그래밍 문법이 아니다. YAML 이란?1. YAML은 XML, C, 파이썬, 펄, RFC2822에서 정의된 e-mail 양식에서 개념을 얻어 만들어진 '사람이 쉽게 읽을 수 있는' 데이터 직렬화 양식이다.2. 즉 YAML은 모든 데이터를 리시트, 해쉬, 스칼라 데이터의 조합으로 적절히 표현할 수 있다. 기상청 홈페이지에서 RSS데이터 갖고오기https:/.. 2022. 1. 29.
네이버 뉴스 스크랩핑 하기 (news scraping) 1. 먼저 필요한 모듈들을 import 해준다. #%% import requests from bs4 import BeautifulSoup from urllib.parse import urljoin 2. 다음으로 스크랩핑을 원하는 페이지의 URL과 브라우저 정보를 파악하고 이를 통해 아래와 같이 불러온다. #%% url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100' req_header_dict = { # 요청헤더 : 브라우저 정보 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692... 2022. 1. 28.
웹 스크랩핑 - 준비과정 오늘은 네이버 뉴스의 카테고리별 페이지별 기사 제목을 불러오는 작업을 해보려고 한다. 정치 경제 사회 생활/문화 IT/과학 등과 같은 페이지를 각각 선택하고 페이지 내에 기사 제목을 불러오는 작업을 하기 위해서는 우선 Web에 대해 이해를 해야 한다. Web의 이해 HTTP - Hyper Text Transfer Protocol - 서버와 클라이언트 사이에서 정보를 주고받기 위한 규약 - 시작 줄, 헤더(Header), 본문(Body)으로 이루어져 있음 - 9개의 메서드가 존재하지만 주로 GET과 POST만 쓰인다. ▶ GET ▶ POST HTTP Client 모듈 - python urllib Python built-in module 간편하게 HTTP request를 보낼 수 있음 로그인 및 세션을 유지.. 2022. 1. 28.
반응형