반응형

Python 62

파이토치 무작정 시작하기 2 - 패키지 구성 / 자동 미분 계산

파이토치 패키지 구성 구성 내용 설명 torch 메인 네임스페이스로 텐서 등의 다양한 수학 함수가 이 패키지에 포함되어 있다. NumPy와 같은 구조를 가지고 있다. torch.autograd 자동 미분을 위한 함수가 포함돼 있다. 자동 미분의 on/off를 제어하는 콘텍스트 매니저(enable_grade/no_grade)나 자체 미분 가능 함수를 정의할 때 사용하는 기반 클래스인 'Function' 등이 포함돼 있다. torch.nn 신경망을 구축하기 위한 다양한 데이터 구조나 레이어 등이 정의돼 있다. 예를 들어 Convolution이나 LTSM, ReLU 등의 활성화 함수나 MSELoss 등의 손실 함수도 포함된다. torch.optim 확률적 경사 하강법(SGD, Stochastic Gradien..

데이터 분석 연습3 - 시카고 샌드위치 맛집 분석

목표 시카고 샌드위치 맛집 리스트 정리 사용 데이터 1. 시카고 샌드위치 맛집 사이트 : https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ The 50 Best Sandwiches in Chicago Our list of Chicago’s 50 best sandwiches, ranked in order of deliciousness www.chicagomag.com 1. 시카고 샌드위치 맛집 소개 사이트에 접근하기 # 라이브러리 불러오기 from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.parse import urljoi..

데이터 분석 연습2 - 서울시 범죄 현황 분석

목표 강남 3구의 체감안전도가 높다는 기사 검증 실제 안전도가 높은지 확인 서울시 구별 범죄 발생과 검거율 위의 정보로 어떤 결론을 내리고, 어떻게 시각화할 것인지 고민 사용 데이터 1. 서울시 관서별 5대 범죄 발생 검거 현황 : 2015년 (.csv) 1. pandas를 이용하여 데이터 정리하기 # 라이브러리 불러오기 import numpy as np import pandas as pd # 사용 데이터(csv) 읽어들이기 crime_anal_police = pd.read_csv('C:/datascience_train/data/02. crime_in_Seoul.csv', thousands=',', encoding='euc-kr') crime_anal_police.head() 2. Google Maps를..

회귀분석 코딩하기 (R, 파이썬)

logistic regression 분류를 하는데 있어서 가장 흔한 경우는 이분법을 기준을 분류하는 경우 - 예) 특정고객이 물건을 구매할지(1) 안할것인지(0) 어떤 기업이 부도가 날것인지(1) 안날것인지(0) 동훈이랑 서영이랑 친구인지(1) 아닌지(0) 오늘 비가 올것인지(1) 안올것인지(0) 적용분야 : 기업의 부도예측, 주가, 환율, 금리등의 Up/Down 예측 R로 코딩하기 1. 성적 예측 # 데이터 불러오기 score

군집화

군집화 - 비지도학습 데이터를 클러스터 (cluster, 유사한 아이템의 그룹)로 자동 분리하는 비지도 학습이다.(unsupervised learning) 군집화는 데이터 안에서 발견되는 자연스런 그룹에 대한 통찰력을 제공 클러스터 안에 있는 아이템들은 서로 비슷해야 하지만 클러스터 밖에 있는 아이템과는 아주 달라야 한다. 군집화 활용 분야 생물학 분야 : 식물계통학에서 다수의 속성을 공유하는 종과 속의 분류 유전 데이터의 유사성 분석 의료 분야에서는 단층촬영으로 클러스터 분석을 사용하여 3차원 이미지에서 여러 유형의 조직을 구별 비지니스에서는 소비자 집단을 여러 시장으로 분할하거나 소비자를 분류하여 각 소비자 그룹별 마케팅 믹스 전략을 사용 사회관계망 분석에서는 여러 그룹의 커미니티를 인식하는데 사용 ..

와인품질데이터 - 의사결정트리 / 랜덤 포레스트

와인품질 데이터 컬럼 설명 fixed acidity : 고정 산도 volatile acidity : 휘발성 산도 citric acid : 시트르산 residual sugar : 잔류 설탕 chlorides : 염화물 free sulfur dioxide : 자유 이산화황 total sulfur dioxide : 총 이산화황 density : 밀도 pH : pH sulphates : 황산염 alcohol : 알코올 quality : 품질 # 종속변수 1. 의사결정트리 (파이썬) # 라이브러리 및 데이터 불러오기 import pandas as pd wine = pd.read_csv("C:/data/whitewines.csv") wine.info() # 종속변수 / 입력변수 나누기 x = wine.iloc[:,..

앙상블(Ensemble), 랜덤 포레스트(Random Forest)

앙상블 (Ensemble) 어려운 문제의 결론을 내기 위해 여러명의 전문가로 위원회를 구성해 다양한 의견을 수렴하고 결정하듯이 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일분류기보다 신뢰성이 높은 예측값을 얻는다. 문제를 해결하기위해 전문가들을 모으는것 voting : 서로 다른 알고리즘으로 결과를 낸뒤 다수결로 정하는것 bagging : 의사결정트리를 가지고 하되 트레인데이터의 표본을 뽑아낼때 중복으로 뽑아냄 하나의 알고리즘으로하되 데이터가 랜덤하게 뽑아냄(중복될 수 있음) 랜덤 포레스트(RandomForest) decesion tree와 bagging을 결합한 알고리즘 매실행시마다 랜덤하게 관측치와 변수를 선택하므로 실행결과가 조금씩 달라지게된다. (변수를 바꿔가면서 실행한다.)..

의사결정트리 시각화

1. 아이리스 데이터 (파이썬) # 데이터 불러오기 / 데이터 정보 확인 import pandas as pd iris = pd.read_csv("C:/data/iris.csv") iris.info() iris.head() # 목표변수와 나머지 변수들을 따로 저장 x = iris.iloc[:,0:4] y = iris.iloc[:,4] # 데이터 분포 확인 x.info() # 데이터 프레임 y.value_counts() # 시리즈 # 데이터셋 나누고 라벨 분포 확인 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20) from collection..

의사결정트리를 이용한 타이타닉 데이터셋 분석

타이타닉 데이터셋 (titanic.csv) survived : 목표변수, 종속변수, 생존여부(0:사망, 1:생존) pclass : 좌석 등급 name : 탑승객 이름 gender : 성별 age : 나이 sibsp : 함께 탑승한 형제수 parch : 함께 탑승한 부모수 ticket : 티켓 번호 fare : 탑승권 가격 cabin : 선실 번호 embarked : 탑승 승착장 R 로 분석하기 # 데이터 불러오기 및 데이터 정보 확인 titanic

반응형