반응형

분류 전체보기 227

NLTK 자연어 처리 패키지 사용

1. nltk.NaiveBayesClassifier + show_most_informative_features() # nltk 패키지 다운 (오래 걸리니까 punkt만 다운) # 필요한 라이브러리 불러오기 nltk.download('punkt') import nltk from nltk.tokenize import word_tokenize from konlpy.tag import Okt pos_tagger = Okt() # train 데이터셋 train = [('홍길동은 좋아', '긍정'), ('강아지는 무지 좋아', '긍정'), ('수업이 재미없어', '부정'), ('홍길동은 이쁜 강아지야', '긍정'), ('난 수업 마치고 홍길동이랑 놀거야', '긍정'), ('오늘 하루는 너무 짜증스러운 날이야', '..

베르누이 나이브베이즈

베르누이 나이브베이즈 데이터의 특징이 0또는 1로 표현하는 경우 사용된다. 1. 단어 정제 안함 # 필요한 라이브러리 불러오기 import pandas as pd import numpy as np from collections import Counter from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report # 데이터 불러오기 / 구조 확인 data = pd.read_csv("C:/data/bulletin_board.txt",header=None, encodi..

나이브베이즈(Naive Bayes) 분류

나이브베이즈(Naive Bayes) 데이터를 나이브하게 독립적인 사건으로 가정하고 이 독립사건을 베이즈이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘이다. 사전확률 정보를 이용하여 사후확률을 예측하는 이론 패턴분석에 주로 사용됨 P(A|B) : 어떤 사건 B가 일어났을때 사건 A가 일어날 확률 P(B|A) : 어떤 사건 A가 일어났을때 사건 B가 일어날 확률 P(A) : 어떤 사건 A가 일어날 확률 P(B) : 어떤 사건 B가 일어날 확률 P(B|A) = P(A∩B) / P(A) = P(A|B) * P(B) / P(A) P(A∩B) = P(A|B) * P(B) P(B∩A) = P(B|A) * P(A) 예) ADsP - 빈도 YES NO TOTAL 합격 33 19 62 불합격 26 12..

사건과 확률

사건 관측치나 데이터가 특정 조건을 만족시키는 상황 로또 1등에 당첨될 사건 너구리에 다시마가 2개 나올 사건 한화 이글스가 KBO 1위할 사건 확률 경험 혹은 실험결과로 특정한 사건이나 결과가 발생할 가능성을 말한다. 관심있는 사건이 발생할 가능성을 0 ~ 1사이 숫자로 표현한 값 번개에 맞을 확률? 0.0002 확률의 종류 1. 한계확률, 주변확률 아무런 조건이 없는 상태에서 A라는 사건이 발생할 확률 행과 열의 합을 빈도 전체합으로 나누면 한계확률을 구할 수 있다. P(A) 예) 30일중 하루를 뽑았을때 맑은 날일 확률은? 15/30 맑음 흐림 비 눈 행의 합 한계확률 서울 8 3 5 2 18 18/30 천안 7 3 1 1 12 12/30 열의 합 15 6 6 3 30 한계확률 15/30 6/30 ..

강화학습 - 슈퍼마리오 DQN 기본 코드

기존에 가지고 있던 슈퍼마리오 강화학습 코드가 안돌아가서 해결법을 찾다가 발견한 것들 1. pytorch 설치 CPU 버전 !pip install torch==0.3.1 # 사용 X conda install pytorch-cpu torchvision-cpu -c pytorch # 사용 O !pip install torch 2. BinarySpaceToDiscreteSpaceEnv 대신 JoypadSpace를 임포트 해야한다. from nes_py.wrappers import BinarySpaceToDiscreteSpaceEnv # 사용 X from nes_py.wrappers import JoypadSpace # 사용 O 3. 슈퍼마리오 DQN 기본 코드 from nes_py.wrappers import..

혼동행렬 / 정확도 / 정밀도 / 재현율 / F1 점수

1. 혼동행렬 (confusion matrix) 모델의 성능을 평가할때 사용되는 지표 예측값이 실제 관측값을 얼마나 정확히 예측했는지 보여주는 행렬 예상(예) 예상(아니오) 실제(예) TP FN 실제(아니오) FP TN TP(True Positive) : 참긍정, 병에 관해 예 (병이 있을것이다.)라고 예측한 환자가 실제 병을 가진 경우 TN(True Negative) : 참부정, 병에 관해 아니오(병이 없을 것이다)라고 예측한 환자가 실제로 병이 없는 경우 FP(False Positive) : 거짓긍정, 병에 관해 예라고 예측한 환자가 실제로는 병이 없는 경우 FN(False Negative) : 거짓부정, 병에 관해 아니오라고 예측한 환자가 실제로는 병이 있는 경우 예 ) A 병원 (잘된 분류 / 잘..

유방암 데이터 분석하기

R로 분석하기 1단계 : 데이터 수집 유방암 데이터 http://archive.ics.uci.edu/ml/index.php UCI Machine Learning Repository Welcome to the UC Irvine Machine Learning Repository! We currently maintain 497 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou archive.ics.uci.edu 위스콘신 대학의 연구원들의 자료 유방..

Object Detection API 설치 - Window 10 / CPU 버전

1. 아나콘다 설치 https://truman.tistory.com/60?category=840818 파이썬 - 아나콘다(Anaconda) 설치법 https://www.anaconda.com/distribution/ Anaconda Python/R Distribution - Free Download Anaconda Distribution is the world's most popular Python data science platform. Download the free version to ac.. truman.tistory.com 2. 아나콘다 가상환경 만들기 2-1 Anaconda Navigator 실행 2-2 왼쪽 메뉴의 'Environments' -> 아래의 'Create' 클릭 2-3 가상환경 ..

반응형