Python 62

NLTK 자연어 처리 패키지 사용

1. nltk.NaiveBayesClassifier + show_most_informative_features() # nltk 패키지 다운 (오래 걸리니까 punkt만 다운) # 필요한 라이브러리 불러오기 nltk.download('punkt') import nltk from nltk.tokenize import word_tokenize from konlpy.tag import Okt pos_tagger = Okt() # train 데이터셋 train = [('홍길동은 좋아', '긍정'), ('강아지는 무지 좋아', '긍정'), ('수업이 재미없어', '부정'), ('홍길동은 이쁜 강아지야', '긍정'), ('난 수업 마치고 홍길동이랑 놀거야', '긍정'), ('오늘 하루는 너무 짜증스러운 날이야', '..

베르누이 나이브베이즈

베르누이 나이브베이즈 데이터의 특징이 0또는 1로 표현하는 경우 사용된다. 1. 단어 정제 안함 # 필요한 라이브러리 불러오기 import pandas as pd import numpy as np from collections import Counter from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, classification_report # 데이터 불러오기 / 구조 확인 data = pd.read_csv("C:/data/bulletin_board.txt",header=None, encodi..

Object Detection API 설치 - Window 10 / CPU 버전

1. 아나콘다 설치 https://truman.tistory.com/60?category=840818 파이썬 - 아나콘다(Anaconda) 설치법 https://www.anaconda.com/distribution/ Anaconda Python/R Distribution - Free Download Anaconda Distribution is the world's most popular Python data science platform. Download the free version to ac.. truman.tistory.com 2. 아나콘다 가상환경 만들기 2-1 Anaconda Navigator 실행 2-2 왼쪽 메뉴의 'Environments' -> 아래의 'Create' 클릭 2-3 가상환경 ..

데이터 분석 연습1 - 서울시 구별 CCTV 현황 분석

목표 어디에 CCTV가 많이 설치됐는지? 구별 인구 대비 비율 구별 인구 현황 구별 CCTV 현황 (시각화) 사용 데이터 1. 서울시 자치구 연도별 cctv 설치 현황 (.csv) 2. 서울시 인구 통계 (.xls) 1. pandas로 텍스트 파일과 엑셀 파일 읽기 # pandas 불러오기 import pandas as pd # CSV파일 읽어들이기 CCTV_Seoul = pd.read_csv("C:/datascience_train/data/01. CCTV_in_Seoul.csv", encoding='utf-8') CCTV_Seoul.head() # 컬럼 이름 변경하기 (기관명 -> 구별) # inplace=True : 실제 CCTV_Seoul의 내용을 변경 CCTV_Seoul.rename(columns..

머신러닝 - feature scaling

feature scaling 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 비교해야할 데이터의 기준이 서로 다른 경우에 같은 기준으로 만들어서 비교한다. 방법 : 표준화(standardization), 정규화(Normalization) 값이 잘 안나오면 두개를 각각 해본다. 표준화 (standardization) 데이터의 평균이 0이고 표준편차가 1인 정규분포를 가진 값으로 변환한다. (x - 평균) / 표준편차 파이썬 : sklearn.preprocessing.StandardScaler 정규화 (Normalization) 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 작업 최소 0 ~ 최대 1의 값으로 변환한다. (x - min(x)) / (max(x) - min(x)) 파이썬 :..

파이썬 - Numpy

Numpy 과학계산을 위한 라이브러리로 다차원 배열 처리하는데 필요한 기능을 제공한다. numpy 배열은 동일한 타입의 값을 갖는다. 1. 기본 사용법 1) numpy array 생성 # 1차원 배열 만들기 z1 = np.array([1,2,3]) # 2차원 배열 만들기 (2행3열) z2 = np.array([[1,2,3],[4,5,6]]) # 2차원 배열 만들기 (3행3열) lst = [[1,2,3],[4,5,6],[7,8,9]] z3 = np.array(lst) # bool타입의 배열 만들기 (3행3열) b = np.array([[False,True,False], [True,False,True], [False,True,False]]) 2) 연속되는 수 배열 생성 및 차원 바꾸기 # range로 배열 ..

파이썬(Python) - Class ②

Class에서 SQLite 사용하기 # sqlite3 임포트 import sqlite3 # 클래스 생성 class Health: def __init__(self,arg1,arg2,arg3,arg4): self.name = arg1 self.age = arg2 self.height = arg3 self.weight = arg4 def print_info(self): print("이름:",self.name) print("나이:",self.age) print("키:",self.height) print("몸무게:",self.weight) # sqlite 사용하기 def input(self): self.conn = sqlite3.connect("C:/data/health.db") self.c = self.conn..

파이썬(Python) - Class ①

절차(구조적) 지향 프로그램(procedural language) C, R, plsql 물이 위에서 아래로 흐르는 것처럼 순차적인 처리가 중요시 되며 프로그램 전체가 유기적으로 연결되도록 만드는 프로그램밍 기법이다. 반복되는 코드는 함수를 만들어서 사용 단점 : - 재사용할 수 없다. - 확장성이 떨어진다. - 유지보수가 어렵다. 객체 지향 프로그램(Object Oriented Language, OOP) JAVA, C++, C#, Python 구조적 프로그래밍과 다르게 큰 문제를 작은 문제들로 해결할 수 있는 객체들을 만든 뒤 이 객체들을 조합해서 큰 문제를 해결하는 방법 객체 : 사물 개념중에 명사로 표현할 수 있는 것을 의미한다. 클래스 : 객체를 설명해 놓은 것(객체의 설계도) 인스턴스 : 클래스를..

파이썬(Python) - 스크래핑 ④ selenium을 이용한 크롤링

selenium 웹브러우저를 컨트롤하여 웹UI(User Interface)를 자동화하는 도구 pip install selenium https://chromedriver.chromium.org/downloads from selenium import webdriver 1. 사이트 접속 및 스크린샷 찍기 # chromium으로 크롬 브라우저 열기 browser = webdriver.Chrome('C:/chromedriver.exe') # 크롬 브라우저 내부 대기 초시간 browser.implicitly_wait(2) # url 접속 browser.get("https://truman.tistory.com/") # 접속한 페이지의 url정보 확인 print(browser.page_source) # 접속한 페이지 ..

반응형