본문 바로가기
반응형

BeautifulSoup4

BeautifulSoup SELECT 사용법 BeautifulSoup 간단 사용법 BeautifulSoup 패키지 설치 pip install bs4 사용법 from bs4 import BeautifulSoup html = """test data """ soup = BeautifulSoup(html, 'html.parser') print(soup.select_one('body').text) SELECT(), SELECT_ONE() 설명 태그이름 태그이름으로 찾음 .클래스이름' 클래스이름으로 찾음 #아이디이름' 아이디이름으로 찾음 (아이디는 연속X) 상위태그이름>자식태그>자식태그' 부모 자식간의 태그 조회' >' 로 구분 상위태그이름 자손태그' 부모 자손간의 태그 조회 #띄어쓰기(공백) 로 구분 #자식을 건너 띈다. [속성]' 태그 안의 속성을 찾음 .. 2022. 2. 11.
[Web scraping]멜론 TOP100 차트(2/2) 지난 시간에는 멜론 TOP 100 차트 페이지에서 1위부터 100위까지의 곡명, 가수, 앨범, 발매일, 장르 등 상세 정보를 가져와 리스트화 까지 끝냈다. 오늘은 만들어낸 리스트를 JSON파일로 만들어서 아래의 작업을 해보려고 한다. 1. json 파일을 load 하여 Pandas의 DataFrame에 저장하기 2. DataFrame 객체를 DB의 Table에 저장하기 먼저 JSON 파일로 저장해보자 import json #with open(파일명,쓰기모드,인코딩) as file: with open('data/songs.json','w',encoding='utf-8') as file: json.dump(song_detail_list, file) EX) with open json.dump() import .. 2022. 2. 9.
[Web scraping]멜론 TOP100 차트(1/2) 오늘은 멜론 TOP100 차트를 이용해서 아래와 같은 웹스크랩핑(Web scraping)을 해보려고 한다. ## Melon100 Chart * 100곡의 노래의 제목과 SongID 추출해서 list에 저장하기 * 100곡 노래의 상세정보를 추출해서 list와 dict에 저장해서 json 파일로 저장하기 * json 파일을 load하여 Pandas의 DataFrame에 저장하기 * DataFrame 객체를 DB의 Table에 저장하기 Melon top100 차트에 연결하기 url = 'https://www.melon.com/chart/index.htm' req_header_dict = { # 요청헤더 : 브라우저정보 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64.. 2022. 2. 8.
[python]기상청 RSS 데이터를 Json 파일로 저장하기 먼저 JSON과 YAML에 대해 알아보고 시작해보자 JSON 이란? 1. JSON이란 JavaScript Object Notation의 약자로 쉽게 말해 자바스크립트의 객체 표기법이다. 2. XML을 대체하여 많이 사용된다. 그 이유는 사람과 기계 모두 이해하기 쉬운 표현식이며 용량도 작은편이다. 3. JSON은 단지 데이터를 표현하는 방법일뿐 언어 또는 프로그래밍 문법이 아니다. YAML 이란? 1. YAML은 XML, C, 파이썬, 펄, RFC2822에서 정의된 e-mail 양식에서 개념을 얻어 만들어진 '사람이 쉽게 읽을 수 있는' 데이터 직렬화 양식이다. 2. 즉 YAML은 모든 데이터를 리시트, 해쉬, 스칼라 데이터의 조합으로 적절히 표현할 수 있다. 기상청 홈페이지에서 RSS데이터 갖고오기 h.. 2022. 1. 29.
반응형