본문 바로가기
반응형

[python]데이터 분석/[python]데이터 분석4

[데이터 분석] 행정구역 정보를 읽고, 분석하기(2/2) [1]. 상관계수 (crrelation) * 인구수와 면적간에 관련성이 있는지 살펴보기 위해서 상관계수를 구하기 * 상관계수 값음 -1 ~ 1 사이의 값으로 , -1에 가까우면 음에 비례, 1에 가까우면 양의 비례(관련성이높다), 0에 가까울수록 상관x * 음수는 반비례, 양수는 비례 * corr()함수사용 corr() 함수 사용 data['면적'].corr(data['인구수']) -0.3460351605045771 서울특별시의 면적과 인구수의 상관계수 구하기 seoul_df = data.loc[data['광역시도'] == '서울특별시'] seoul_df['면적'].corr(seoul_df['인구수']) 0.664426818890978 [2]. Group By 기능 * 광역시도별 인구수의 합계 * ~별에.. 2022. 2. 12.
[데이터 분석] 행정구역 정보를 읽고, 분석하기(1/2) 오늘은 위의 첨부한 파일을 갖고 정보를 읽고, 분석하는 작업을 해보겠다. 작업 순서는 아래와 같다. 제목 [행정구역 정보를 읽고, 분석하기] 목차 1. read_csv()함수로 csv file 읽어오기 2. 특정행과 열을 선택하기 3. 컬럼명변경 4. 상관관계 분석 (인구수와 면적간의 상관관계) 5. 시각화 [1]. 데이터 읽어오기 import pandas as pd data = pd.read_csv('data_draw_korea.csv') #print(data) data.sample(3) Unnamed: 0인구수shortNamexy면적광역시도행정구역 171739668횡성105997.82강원도횡성군 115115292375부산북구91638.30부산광역시북구 106106321618대전유성413177.16대전.. 2022. 2. 11.
Pandas(판다스)란? 판다 스란 Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업할 수 있도록 설계된 빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다. 적합한 사용용도 SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이 있는 데이블 형식 데이터 정렬되고 정렬되지 않은 시계열 데이터 행 및 열 레이블이 포함된 임의의 행렬 데이터 다른 형태의 관찰 / 통계 데이터 세트 Pandas import 하기 & 시각화를 위한 matplotlib import 하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt [1].데이터 오브젝트 생성하기 데이터 오브젝트는 ‘데이터를 담고 있는 그릇’.. 2022. 2. 11.
BeautifulSoup SELECT 사용법 BeautifulSoup 간단 사용법 BeautifulSoup 패키지 설치 pip install bs4 사용법 from bs4 import BeautifulSoup html = """test data """ soup = BeautifulSoup(html, 'html.parser') print(soup.select_one('body').text) SELECT(), SELECT_ONE() 설명 태그이름 태그이름으로 찾음 .클래스이름' 클래스이름으로 찾음 #아이디이름' 아이디이름으로 찾음 (아이디는 연속X) 상위태그이름>자식태그>자식태그' 부모 자식간의 태그 조회' >' 로 구분 상위태그이름 자손태그' 부모 자손간의 태그 조회 #띄어쓰기(공백) 로 구분 #자식을 건너 띈다. [속성]' 태그 안의 속성을 찾음 .. 2022. 2. 11.
반응형