반응형

전체 글 232

신경망을 이용한 붓꽃 데이터 분류하기

단층 신경망 # 라이브러리 불러오기 import pandas as pd import tensorflow as tf import numpy as np from pandas import get_dummies from sklearn.model_selection import train_test_split tf.__version__ # 아이리스 데이터 불러오기 iris = pd.read_csv("C:/data/iris.csv") iris.head() # 독립변수, 종속변수 분리 x_data = iris.iloc[:,:-1] y_lables = iris.iloc[:,-1] y_lables.unique() # 수동으로 원핫 인코딩 lables = {"Iris-setosa":[1,0,0], "Iris-versicolo..

텐서플로를 이용한 신경망 구현

1. 선형회귀 예 입력(x) 출력(y) 1 2 2 4 3 6 4 8 5 10 6 12 Q. 7을 입력하면 출력값은? # 데이터 입력 x_data = [1,2,3,4,5,6] y_data = [2,4,6,8,10,12] # 변수 만들기 # seed=0 : 난수값 고정 # tf.random_normal : 정규분포에 해당하는 난수값 리턴 x = tf.placeholder(tf.float32) y = tf.placeholder(tf.float32) w = tf.Variable(tf.random_normal([1],seed=0),name='weight') b = tf.Variable(tf.random_normal([1],seed=0),name='bias') # hypothesis 정의 hypothesis = w..

회귀분석 코딩하기 (R, 파이썬)

logistic regression 분류를 하는데 있어서 가장 흔한 경우는 이분법을 기준을 분류하는 경우 - 예) 특정고객이 물건을 구매할지(1) 안할것인지(0) 어떤 기업이 부도가 날것인지(1) 안날것인지(0) 동훈이랑 서영이랑 친구인지(1) 아닌지(0) 오늘 비가 올것인지(1) 안올것인지(0) 적용분야 : 기업의 부도예측, 주가, 환율, 금리등의 Up/Down 예측 R로 코딩하기 1. 성적 예측 # 데이터 불러오기 score

회귀분석

회귀분석(regression) 인과관계를 분석하는 방법 인과관계 어떤 변수가 어떤 변수에게 어떤 영향을 주는지를 판단 인과관계의 조건 1. x가 변할때 y도 변한다. 교육연수 -> 생활만족도 2. 시간적으로 선행되어야 한다. 교육연수가 먼저 선행되어야 한다. 3. 외생변수를 통제(다른 요인을 통제하고 인과관계를 분석) 교육연수 -> 생활만족도 다른 요인 (성별, 직업, 거주지, 근무연수, ...) 상관관계 변수와 변수가 어떤 연관이 있는지 방향성을 나타내다. 종속변수, 목표변수 영향을 받는 변수 독립변수, 설명변수 영향을 주는 변수 예 ) 독립변수 종속변수 담배량 폐암 배기량 연료소비량 광고비 매출액 수학 인공지능 전문가 -> 돈 -> 생활만족도 -> 자동차 판매량 -> 연료소비량 독립변수의 수 1개일때..

평균, 분산, 상관분석

중심위치 관찰된 자료들이 어디에 집중되어 있는지를 나타낸다. 대표값 평균, 중앙값 , 최빈값 평균 자료의 중심값으로 자료의 특성을 대표하는 값 모든 자료로 부터 영향을 받는다. (아웃라이어에 취약하다.) 1) 산술평균 2) 가중평균 (Weighted mean) 각 항의 수치에 그 중요도에 비례하는 계수를 곱한 다음 산술한 평균 정밀도나 들어온 양이 같지 않은 물품의 평균 가격처럼 원래의 수치가 동등하지 않다고 생각되는 경우 사용 3) 기하평균 (Gemetric mean) 곱의 형태로 변하는 증가율 비율의 평균계산에 많이 사용된다. 물가상승률, 인구변동률, 연평균증가율 4) 조화평균 (Harmonic mean) 속도 등과 같이 여러 단위가 결합되어 있을때 계산 5) 절단평균,절사평균 (Trimmed mea..

군집화

군집화 - 비지도학습 데이터를 클러스터 (cluster, 유사한 아이템의 그룹)로 자동 분리하는 비지도 학습이다.(unsupervised learning) 군집화는 데이터 안에서 발견되는 자연스런 그룹에 대한 통찰력을 제공 클러스터 안에 있는 아이템들은 서로 비슷해야 하지만 클러스터 밖에 있는 아이템과는 아주 달라야 한다. 군집화 활용 분야 생물학 분야 : 식물계통학에서 다수의 속성을 공유하는 종과 속의 분류 유전 데이터의 유사성 분석 의료 분야에서는 단층촬영으로 클러스터 분석을 사용하여 3차원 이미지에서 여러 유형의 조직을 구별 비지니스에서는 소비자 집단을 여러 시장으로 분할하거나 소비자를 분류하여 각 소비자 그룹별 마케팅 믹스 전략을 사용 사회관계망 분석에서는 여러 그룹의 커미니티를 인식하는데 사용 ..

텐서플로 - 설치, 상수/변수 선언, 메소드

TensorFlow 구글이 오픈소스로 공개한 머신러닝 라이브러리 다차원 행렬 계산(tensor), 대규모 숫자 계산 작업을 수행한다. C++로 만들어진 라이브러리 CPU, GPU 버전이 있음 C++, JAVA, Python에서 사용가능 1. 텐서플로 설치 및 불러오기 1) 아나콘다 프롬프트 관리자 권한으로 실행 2) 텐서플로 1.15버전으로 설치 pip install --upgrade tensorflow==1.15 3) 텐서플로 불러오기 import tensorflow as tf 4) 텐서플로 버전 확인 tf.__version__ 2. 상수 / 변수 선언 1) tf.constant() : 상수 선언 # 텐서 생성 tensor = tf.constant("tensorflow") tensor print(ten..

연관규칙 / 연관성 분석

연관규칙 ,연관성분석 (association analaysis) - 비지도 학습 대량의 데이터에 숨겨진 항목간의 연관규칙을 찾아내는 기법으로서 다른말로 장바구니 분석(market basket analysis)이라고도 한다. 실제 연관성 분석은 월마트, 아마존 등 여러기업에서 다양한 마케팅 활동에 활용하고 있으며 더 나아가 사회 네트워크 분석에도 활용할 수 있다. 장점 대규모 거래 데이터에 대해 작업을 할 수 있다. 이해하기 쉬운 규칙을 생성해준다. 데이터마이닝과 데이터 베이스에서 예상치 못한 지식을 발굴하는데 유용하다. 단점 작은 데이터셋에는 그다지 유용하지 않다 진정한 통찰력과 상식을 분리하기 위한 노력이 필요하다. 지지도(support) 전체 거래중 연관성 규칙을 구성하는 항목들이 포함된 거래의 비율..

와인품질데이터 - 의사결정트리 / 랜덤 포레스트

와인품질 데이터 컬럼 설명 fixed acidity : 고정 산도 volatile acidity : 휘발성 산도 citric acid : 시트르산 residual sugar : 잔류 설탕 chlorides : 염화물 free sulfur dioxide : 자유 이산화황 total sulfur dioxide : 총 이산화황 density : 밀도 pH : pH sulphates : 황산염 alcohol : 알코올 quality : 품질 # 종속변수 1. 의사결정트리 (파이썬) # 라이브러리 및 데이터 불러오기 import pandas as pd wine = pd.read_csv("C:/data/whitewines.csv") wine.info() # 종속변수 / 입력변수 나누기 x = wine.iloc[:,..

앙상블(Ensemble), 랜덤 포레스트(Random Forest)

앙상블 (Ensemble) 어려운 문제의 결론을 내기 위해 여러명의 전문가로 위원회를 구성해 다양한 의견을 수렴하고 결정하듯이 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일분류기보다 신뢰성이 높은 예측값을 얻는다. 문제를 해결하기위해 전문가들을 모으는것 voting : 서로 다른 알고리즘으로 결과를 낸뒤 다수결로 정하는것 bagging : 의사결정트리를 가지고 하되 트레인데이터의 표본을 뽑아낼때 중복으로 뽑아냄 하나의 알고리즘으로하되 데이터가 랜덤하게 뽑아냄(중복될 수 있음) 랜덤 포레스트(RandomForest) decesion tree와 bagging을 결합한 알고리즘 매실행시마다 랜덤하게 관측치와 변수를 선택하므로 실행결과가 조금씩 달라지게된다. (변수를 바꿔가면서 실행한다.)..

반응형