pandas 9

파이썬(Python) - Sqlite 사용법

sqlite 별도의 DB서버가 필요없이 DB파일 기초하여 데이터베이스 처리하는 엔진 # sqlite3 라이브러리를 임포트 import sqlite3 1. 기본 사용법 # 메모리에다가 DB서버를 구성(연결)하기 conn = sqlite3.connect(":memory:") # sql문 작성하고 실행할 수 있는 메모리 영역 만들기 c = conn.cursor() # 테이블 생성 및 데이터 타입 지정하기 / integer = 숫자타입 c.execute("create table dessert(id integer, name char, kal integer)") # 테이블안에 값 넣기 c.execute("insert into dessert(id,name,kal) values(1,'케이크',324)") # 메모리에 ..

파이썬(Python) - 날짜 계산

1. 날짜와 날짜 계산 # 현재 시간 - 지정한 시간의 일수 계산 (datetime.datetime.now() - datetime.datetime(2019, 7, 13, 10, 10, 10, 100)).days # 현재 시간 + 50일 더하기 datetime.datetime.now() + datetime.timedelta(days = 50) # Timedelta : 일, 시, 분, 초 계산 가능 # 현재 시간 + 1일 더하기 pd.datetime.now() + pd.Timedelta('1 days') # 현재 시간 + 8시간 더하기 pd.datetime.now() + pd.Timedelta('8 hours') # 현재 시간 + 60분 더하기 pd.datetime.now() + pd.Timedelta('6..

파이썬(Python) - Pandas의 날짜함수

pandas의 날짜함수 import datetime # 현재 날짜, 시간 출력 / datetime.datetime.now() pd.datetime.now() # 현재 날짜 출력 pd.datetime.now().date() # 현재 년도 출력 pd.datetime.now().year # 현재 월 출력 pd.datetime.now().month # 현재 일 출력 pd.datetime.now().day # 현재 시 출력 pd.datetime.now().hour # 현재 분 출력 pd.datetime.now().minute # 현재 초 출력 pd.datetime.now().second # 현재 마이크로초 출력 pd.datetime.now().microsecond timestamp형식으로 출력 pd.Timesta..

파이썬(Python) - Pandas의 문자함수

pandas 의 문자함수 Series변수이름.str.메소드 obj = Series([' hello','world ',' hello world ']) # 시리즈 안에있는 문자 길이 파악 obj.str.len() # 앞,뒤 공백 제거 obj.str.strip() # 앞,뒤 공백 제거 한뒤 문자 길이 obj.str.strip().str.len() # 왼쪽 공백 제거 obj.str.lstrip() # 왼쪽 공백 제거 한뒤 문자 길이 obj.str.lstrip().str.len() # 오른쪽 공백 제거 obj.str.rstrip() # 오른쪽 공백 제거 한뒤 문자 길이 obj.str.rstrip().str.len() obj = obj.str.strip() # 소문자로 변경 obj.str.lower() # 대문자로..

파이썬(Python) - Pandas의 그룹함수들

Series s = Series([3,4,2,None,6]) s 일때 # 덧셈 s.sum() s.sum(skipna=True) # na가 있으면 스킵하고 수행한다. (기본값) s.sum(skipna=False) # na가 있으면 스킵하지않고 nan출력 # 평균 s.mean() # na를 뺀 나머지로 계산하는거임s.mean(skipna=True) s.mean(skipna=False) # 표본분산 s.var() # 표준편차 s.std() # 최대 s.max() # 최소 s.min() # 최대값의 인덱스 번호 s.idxmax() # 최대값이 중복이면 처음나온 위치 s[s == s.max()] # 최대값 위치 다 찾기 s[s == s.max()].index # 인덱스 보기 s[s == s.max()].value..

파이썬(Python) - null 처리

import numpy as np from numpy import nan as NA null(결측값) 표현 방식 None도 null이다. obj1 = Series([1,2,3,None,5]) obj2 = Series([1,2,3,np.nan,5]) obj3 = Series([1,2,3,NA,5]) 결측값들의 데이터 타입 type(None) type(np.nan) type(NA) null 체크하는 방법 obj1.isnull() obj2.isnull() obj3.isnull() null이 아닌것 체크 obj1.notnull() obj2.notnull() obj3.notnull() null인것만 뽑아내기 obj1[obj1.isnull()] null이 아닌것만 뽑아내기 obj1[obj1.notnull()] pa..

파이썬(Python) - Series와 DataFrame의 정렬

시리즈의 정렬 obj = Series([2,3,7,8], index=['d','a','b','c']) obj 일때 #인덱스를 기준으로 오름차순 정렬 작업(미리보기) obj.sort_index() #인덱스를 기준으로 내림차순 정렬 작업(미리보기) obj.sort_index(ascending = False) #값을 기준으로 오름차순 정렬 작업(미리보기) obj.sort_values() #값을 기준으로 내림차순 정렬 작업(미리보기) obj.sort_values(ascending = False) 데이터 프레임 정렬 df = DataFrame(np.arange(8).reshape(2,4), index = ['two','one'], columns=['d','a','c','b']) df 일때 인덱스를 기준으로 오름차..

파이썬(Python) - Pandas와 DataFrame

2차원 배열 : DataFrame 2차원배열 표형식의 자료구조 각 컬럼은 서로 다른 종류값(문자, 숫자. 불리언) sql(table), R(data.frame) 데이터 프레임(DataFrame) 생성 df1 = DataFrame([[1,2,3],[4,5,6],[7,8,9]]) df1 딕셔너리를 데이터 프레임으로 변환하기 data = {'도시':['서울','부산','강원','인천'], '인구수':[500,400,200,300]} data type(data) df2 = DataFrame(data) df2 처음부터 데이터 프레임으로 만들기 df2 = DataFrame({'도시':['서울','부산','강원','인천'], '인구수':[500,400,200,300]}) df2 type(df2) 데이터프레임 데이터 ..

파이썬(Python) - Pandas와 Series

PANDAS 데이터 분석 기능을 재공하는 라이브러리 1차원 배열 : Serises 2차원 배열 : DataFrame (서로다른 타입의 시리즈들이 모여있는것) from pandas import Series, DataFrame import pandas as pd 1차원 배열 : Serises 1차원 배열 인덱스(색인) 배열의 데이터에 연관된 이름을 가지고 있다. 레코드형식하고 의미가 비슷하다. R은 벡터 자료형하고 비슷하다. 운영체제가 64라서 데이터 타입이 int64로 나온다. object = 문자형 시리즈(Series) 생성 및 확인 s1 = Series([10,20,30,40,50]) s1 type(s1) s1.astype 데이터 타입이 다른 시리즈 생성 및 확인 s1 = Series(['10',20,..

반응형