코딩 116

의사결정트리 시각화

1. 아이리스 데이터 (파이썬) # 데이터 불러오기 / 데이터 정보 확인 import pandas as pd iris = pd.read_csv("C:/data/iris.csv") iris.info() iris.head() # 목표변수와 나머지 변수들을 따로 저장 x = iris.iloc[:,0:4] y = iris.iloc[:,4] # 데이터 분포 확인 x.info() # 데이터 프레임 y.value_counts() # 시리즈 # 데이터셋 나누고 라벨 분포 확인 from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.20) from collection..

의사결정트리를 이용한 타이타닉 데이터셋 분석

타이타닉 데이터셋 (titanic.csv) survived : 목표변수, 종속변수, 생존여부(0:사망, 1:생존) pclass : 좌석 등급 name : 탑승객 이름 gender : 성별 age : 나이 sibsp : 함께 탑승한 형제수 parch : 함께 탑승한 부모수 ticket : 티켓 번호 fare : 탑승권 가격 cabin : 선실 번호 embarked : 탑승 승착장 R 로 분석하기 # 데이터 불러오기 및 데이터 정보 확인 titanic

Object Detection API 설치 - Window 10 / CPU 버전

1. 아나콘다 설치 https://truman.tistory.com/60?category=840818 파이썬 - 아나콘다(Anaconda) 설치법 https://www.anaconda.com/distribution/ Anaconda Python/R Distribution - Free Download Anaconda Distribution is the world's most popular Python data science platform. Download the free version to ac.. truman.tistory.com 2. 아나콘다 가상환경 만들기 2-1 Anaconda Navigator 실행 2-2 왼쪽 메뉴의 'Environments' -> 아래의 'Create' 클릭 2-3 가상환경 ..

데이터 분석 연습1 - 서울시 구별 CCTV 현황 분석

목표 어디에 CCTV가 많이 설치됐는지? 구별 인구 대비 비율 구별 인구 현황 구별 CCTV 현황 (시각화) 사용 데이터 1. 서울시 자치구 연도별 cctv 설치 현황 (.csv) 2. 서울시 인구 통계 (.xls) 1. pandas로 텍스트 파일과 엑셀 파일 읽기 # pandas 불러오기 import pandas as pd # CSV파일 읽어들이기 CCTV_Seoul = pd.read_csv("C:/datascience_train/data/01. CCTV_in_Seoul.csv", encoding='utf-8') CCTV_Seoul.head() # 컬럼 이름 변경하기 (기관명 -> 구별) # inplace=True : 실제 CCTV_Seoul의 내용을 변경 CCTV_Seoul.rename(columns..

머신러닝 - feature scaling

feature scaling 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 비교해야할 데이터의 기준이 서로 다른 경우에 같은 기준으로 만들어서 비교한다. 방법 : 표준화(standardization), 정규화(Normalization) 값이 잘 안나오면 두개를 각각 해본다. 표준화 (standardization) 데이터의 평균이 0이고 표준편차가 1인 정규분포를 가진 값으로 변환한다. (x - 평균) / 표준편차 파이썬 : sklearn.preprocessing.StandardScaler 정규화 (Normalization) 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 작업 최소 0 ~ 최대 1의 값으로 변환한다. (x - min(x)) / (max(x) - min(x)) 파이썬 :..

파이썬 - Numpy

Numpy 과학계산을 위한 라이브러리로 다차원 배열 처리하는데 필요한 기능을 제공한다. numpy 배열은 동일한 타입의 값을 갖는다. 1. 기본 사용법 1) numpy array 생성 # 1차원 배열 만들기 z1 = np.array([1,2,3]) # 2차원 배열 만들기 (2행3열) z2 = np.array([[1,2,3],[4,5,6]]) # 2차원 배열 만들기 (3행3열) lst = [[1,2,3],[4,5,6],[7,8,9]] z3 = np.array(lst) # bool타입의 배열 만들기 (3행3열) b = np.array([[False,True,False], [True,False,True], [False,True,False]]) 2) 연속되는 수 배열 생성 및 차원 바꾸기 # range로 배열 ..

R - RSelenium, xlsx 사용

준비단계 1. RSelenium 설치 및 임포트 install.packages("RSelenium") library(RSelenium) !!주의사항!! jar는 java 환경설정이 되어 있어야한다. java 설치 확인 java -version 2. 가상 서버 가동하기 - 관리자 권한으로 실행 cd 저장해둔 위치 Java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-4.0.0-alpha-1.jar -port 4445 끝날때까지 창 띄워두기 RSelenium 사용 다나와 사이트에서 노트북(애플) 제품명, 가격, 정보 뽑아내기 # 가상서버에서 크롬으로 연결 remdr % html_text() prod_name # 제품가격..

인공지능/R 2020.04.28
반응형