반응형

인공지능/데이터 사이언스 7

데이터 분석 연습3 - 시카고 샌드위치 맛집 분석

목표 시카고 샌드위치 맛집 리스트 정리 사용 데이터 1. 시카고 샌드위치 맛집 사이트 : https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ The 50 Best Sandwiches in Chicago Our list of Chicago’s 50 best sandwiches, ranked in order of deliciousness www.chicagomag.com 1. 시카고 샌드위치 맛집 소개 사이트에 접근하기 # 라이브러리 불러오기 from bs4 import BeautifulSoup from urllib.request import urlopen from urllib.parse import urljoi..

데이터 분석 연습2 - 서울시 범죄 현황 분석

목표 강남 3구의 체감안전도가 높다는 기사 검증 실제 안전도가 높은지 확인 서울시 구별 범죄 발생과 검거율 위의 정보로 어떤 결론을 내리고, 어떻게 시각화할 것인지 고민 사용 데이터 1. 서울시 관서별 5대 범죄 발생 검거 현황 : 2015년 (.csv) 1. pandas를 이용하여 데이터 정리하기 # 라이브러리 불러오기 import numpy as np import pandas as pd # 사용 데이터(csv) 읽어들이기 crime_anal_police = pd.read_csv('C:/datascience_train/data/02. crime_in_Seoul.csv', thousands=',', encoding='euc-kr') crime_anal_police.head() 2. Google Maps를..

데이터 분석 연습1 - 서울시 구별 CCTV 현황 분석

목표 어디에 CCTV가 많이 설치됐는지? 구별 인구 대비 비율 구별 인구 현황 구별 CCTV 현황 (시각화) 사용 데이터 1. 서울시 자치구 연도별 cctv 설치 현황 (.csv) 2. 서울시 인구 통계 (.xls) 1. pandas로 텍스트 파일과 엑셀 파일 읽기 # pandas 불러오기 import pandas as pd # CSV파일 읽어들이기 CCTV_Seoul = pd.read_csv("C:/datascience_train/data/01. CCTV_in_Seoul.csv", encoding='utf-8') CCTV_Seoul.head() # 컬럼 이름 변경하기 (기관명 -> 구별) # inplace=True : 실제 CCTV_Seoul의 내용을 변경 CCTV_Seoul.rename(columns..

소셜 데이터 마이닝 분석

1. 주요 분석 내용 설정 1) 분석 주제 분석 주제 설정을 통해 구체적으로 어떤 사회현상과 그 세부 내용을 다룰 것인지 정한다. 이 과정에서 연구자는 분석의 효율성과 타당성을 먼저 살펴보아야 한다. 인적, 물적 자원의 투입 대비 효율 측면에서 기존의 방법론에 비해 이점이 없다면 분석주제를 다시 고려해보아야 한다. 소셜 미디어의 '전수'데이터를 활용한다는 가정하에 적절한 분석 방법인지 따져봐야 한다. 2) 분석 방법 소셜 미디어 데이터를 분석할 수 있는 방법론 : ①미디어 내용 분석, ②이용자 반응·효과 분석, ③이용자 혹은 미디어 기업 간 관계 분석 등 각각의 분석 방법은 분석 주제에 따라 설정하는데, 이때 분석을 수행하기 위해 필요한 변인의 종류나 규모, 세부 통계 방법 등도 구체화해야 한다. ① 미..

소셜 빅데이터 마이닝 개념과 분석 유형

1. 소셜 빅데이터 마이닝의 개념 빅데이터(big data) 기존 데이터에 비해 규모(Volume), 속도(Velocity), 다양성(Variety) 등이 우위에 있다고 평가되는 데이터 소셜 빅데이터(social big data) - 소셜 미디어 공간에서 생산되는 대용량 데이터 - 빅데이터의 특징 요소에 더해 소셜 미디어를 통해 생산되는 정보 특성이 강조된 개념 - 이용자 참여가 강조된 인게이지먼트(engagement) 수치가 대용량 데이터로 생산된다는 특징이 있음. 데이터 마이닝 (data mining) - 수많은 데이터 중 의미 있는 정보를 추출해 내는 분석과정을 의미한다. - 숫자 데이터같이 구조화된 데이터를 분석해 낸다는 특징이 있다. - 체계화되지 않은 정보 중 반복적이고 지속적으로 나타나는 트..

관계형 데이터 모델의 기초

데이터 모델이란? 데이터 모델은 구조(S), 연산(O), 제약조건(C)로 이루어져 있음 1. 구조 : 데이터의 구조 - 정적 성질, 객체 타입과 이들간의 관계를 명세함 2. 연산 : 데이터의 동적 성질 - 객체 인스턴스를 처리하는 작업에 대한 명세 - 데이터 조작 기법 3. 제약조건 : 데이터의 논리적인 제약 - 구조로부터 파생 의미적 제약 - 데이터 조작의 한계를 표현하는 규정 예) 정수 구조 : -2.-1,0,1,2... 연산 : 사칙연산 제약조건 :정수의 제한 2.5는 정수가 아님 관계형 데이터 모델을 사용하는 이유 - 모델의 구조가 단순함 - 집합 이론이라는 수학족 이론에 기반하여 모델이 강건함 - SQL이라는 간단한 비절차적 언어로 사용하기 쉬움 관계형 데이터 모델 - 구조 : 릴레이션 (또는 ..

데이터베이스의 기초

데이터 베이스의 정의 어느 한 조직의 다양한 응용 프로그램들이 공동으로 사용하는 데이터들을 통합하여 저장한 운영 데이터의 집합 사람들이 필요한 데이터를 모아둔것 이러한 데이터베이스를 생성 관리할수있도록 만든 소프트웨어 시스템을 데이터베이스 시스템이라고 함 데이터베이스 = DBMS = 데이터베이스 시스템 데이터 베이스 정의에 함축된 개념 1. 공용데이터 - 한 조직의 여러 응용프로그램이 공통으로 사용하는 것 - 여러 사용자가 서로 다른 목적으로 공유함 2. 통합된 데이터 - 여러 부서에서 사용하는 데이터를 한 곳에 모아서 공동 관리하는 것 - 최소한의 중복, 통제된 중복 예) 학생처와 교무처에서 사용하는 학생 정보가 유사하지만 조금 다를 것임. 공통부분을 통합시켜서 학생의 정보를 학생처와 교무처가 같이 보..

반응형