소셜 데이터 마이닝 분석

인공지능/데이터 사이언스

소셜 데이터 마이닝 분석

해피밀세트 2020. 2. 22. 21:36

1. 주요 분석 내용 설정

1) 분석 주제

분석 주제 설정을 통해 구체적으로 어떤 사회현상과 그 세부 내용을 다룰 것인지 정한다.
이 과정에서 연구자는 분석의 효율성과 타당성을 먼저 살펴보아야 한다.
인적, 물적 자원의 투입 대비 효율 측면에서 기존의 방법론에 비해 이점이 없다면 분석주제를 다시 고려해보아야 한다.
소셜 미디어의 '전수'데이터를 활용한다는 가정하에 적절한 분석 방법인지 따져봐야 한다.

2) 분석 방법

소셜 미디어 데이터를 분석할 수 있는 방법론 : ①미디어 내용 분석, ②이용자 반응·효과 분석, ③이용자 혹은 미디어 기업 간 관계 분석 등
각각의 분석 방법은 분석 주제에 따라 설정하는데, 이때 분석을 수행하기 위해 필요한 변인의 종류나 규모, 세부 통계 방법 등도 구체화해야 한다.
① 미디어 내용 분석 : 분석하려는 데이터가 분석 대상인 소셜 미디어 플랫폼 외 경우에서 수집된 사례는 없는지 살펴보아야 한다.
② 이용자 반응·효과 분석 : 소셜 미디어 이용자들이 전체 수용자들의 어느 정도 비율을 반영하는지 추산해 보아야 한다.
③ 이용자 혹은 미디어 기업 간 관계 분석 : 네트워크가 온/오프라인 전체 사회의 개체간 관계를 빠짐없이 설명하는지 살펴봐야 한다.

3) 분석 범위와 수준

분석 범위는 소셜 빅데이터가 분포된 공간의 규모와 데이터 종류, 총량으로 설정된다.
분석 수준을 결정할 땐 '클릭스트림'을 감안하는것이 좋다.
연구자는 우선 분석 범위 내 데이터가 수집 가능한 데이터로 구성되어 있는지 살펴봐야 한다.
미디어 내용 분석, 이용자 반응/효과 분석, 이용자 혹은 미디어 기업 간 관계 분석 등의 분석 시 연동되는 데이터 소스가 어떤 형태인지 살펴보아야 한다.

2. 수집 데이터 설정

1) 데이터 수준과 정의

소셜 빅데이터 분석을 위해서는 이슈, 키워드, 소셜 텍스트 등 데이터 수집 내용을 수준별로 구분하고 이에 대한 개념을 설정해야한다.
소셜 빅데이터 분석은 다양한 분야의 전문가들이 협업으로 분석하기 때문에 합의된 용어 사용이 필수이다.
데이터는 이슈, 키워드, 소셜 텍스트 등으로 그 수준을 개념화 할 수 있다.
- 이슈 : 분석하고자 하는 대상이 되는 논쟁적 시안으로 소셜 미디어에서 논의되는 주제
- 키워드 : 이슈를 분석한 내용의 개념이자, 소셜 빅데이터를 분석하기 위한 도구로 쓰이는 개념
- 소셜 텍스트 : 소셜 빅테이터 마이닝 방식으로 수집된 정형 · 반정형 · 비정형 데이터 집합

2) 데이터 세트 단위

소셜 텍스트에 포함된 정보 중 분석을 위해 필요한 데이터를 추려 내는 과정이자 분석 가능한 정보들로 변환하는 단계
데이터 세트 단위는 게시글, 댓글, 작성자, 게시 날짜, 조회 수, 공유 수, 추천 수 등이 있다.
데이터 수집 프로그램을 통해 수집한 초기 단계의 데이터 세트는 정형, 반정형, 비정형 등 다양한 형태로 이루어져 있다.

3) 데이터 수집 시점과 전체 수집 기간

소셜 미디어의 특성상 데이터 생성, 수집, 분석 결과 해석 등 전 과정에서 실제 데이터 내용은 계속 바뀔 수 있다.
데이터를 수집하고 이를 통계적으로 분석하는 시점 정도를 작업 초기에 구분하는 것이 효율적이다.
데이터 수집 시점 기준을 정해 표기할 때는 데이터 수집 시점의 연도, 날짜, 시간, 분 등 향후 분별이 가능한 값을 최대한 자세히 제시하는 것이 좋다.
데이터 동질성을 확보하기 위해 데이터 수집에 소요되는 총 기간은 최소화하는 것이 좋다.
데이터 수집 시점과 기간으로 이냏 변화하는 데이터 내용을 적시해 표현할 수 있다.

3. 데이터 수집

1) 크롤링

웹페이지에서 HTML 코드로 구성된 데이터를 수집하는 일련의 방식
인터넷 네트워크를 통해 외부에 서버를 둔 데이터 베이스에서 데이터를 수집하는 방식
크롤링을 수행하는 크롤러는 웹페이지와 URL 내용을 추출해 지속적으로 해당 내용이 담긴 공간에 접근해 데이터 수집과 분석에 필요한 정보를 도출한다.

2) ETL

내부 데이터베이스의 데이터를 분석하는 대표 수집 방법
분석하는 주체가 생산한 내부 데이터와 외부 데이터를 연동하여 데이터를 수집하고 이 수집 결과를 매칭해 분석하는 방식
ETL 수집 방법을 통해 분석에 필요한 데이터는 추출되고 변환되며 분석 시스템으로 적재되는 과정을 거친다.
내/외부 데이터 수집 방식에 대한 이해력을 토대로 수집 시스템을 설계하면 더욱 질 높은 분석 결과를 얻을 수 있다.

3) 필터링

데이터 정제의 단계
필터링이 필요한 경우
- 잘못된 키워드를 중심으로 데이터가 수집된 경우 : 예상했던 데이터 수집 결과와 전혀 다르게 나옴
- 정보가 부족한 키워드를 중심으로 데이터가 수집된 경우 : 데이터 결측값 다량 생산
- 불필요하게 많은 정보가 담긴 키워드를 중심으로 데이터가 수집된 경우 : 의미있는 분석 결과를 얻을 확률이 줄어듬

4) 사전구축

사전을 구축하는 과정을 통해 오피니언 마이닝이 더욱 체계적으로 수행된다.
구축된 사전의 내용에서 텍스트에 관한 연구자의 시각이 드러난다.
투입되는 작업량이 현저히 많고, 사전 내용에서도 정확도를 지속적으로 유지하기 어렵다는 이유로 사전 구축 작업이 배제되는 경우도 있다.
최근 데이터 세트의 의미분석에 대한 중요성이 부각되면서 사전 구축 단계의 중요도가 높아졌다.

4. 자연어 처리와 코딩

1) 자연어 처리

자연어 처리는 컴퓨터와 인간의 언어 간 상호작용에 대해 연구하는 분야다.
자연어 처리는 기계 학습 분야와 함께 텍스트 마이닝의 전처리 단계에 응용된다.
의미 단위를 최소화하여 텍스트를 쪼개고 이를 수집해 인식, 분류, 요약, 해석하는 등의 작업을 수행하는 기초적 데이터 처리단계이다.
텍스트는 명사, 형용사, 동사 등의 형태소를 포함한 구문으로 추출되며 의미의 최소 단위를 중심으로도 수집이 가능하다.

2) 자연어 처리와 미디어 분석

자연어 처리를 통해 의미의 최소 단위를 구분하고 이를 통해 개체명을 도출해 관계를 분석
자연어 처리를 통해 이뤄지는 형태소나 구문 데이터가 어떤 방식으로 분류되고 색인화 되는 지 규칙성을 살펴봐야한다.
데이터 수집 단계에서 시작된 필토링, 사전 구축 작업 등이 자연어 처리 단계와 제대로 연동되어 수행되는지 검토도 필요하다.
데이터 수집을 통해 사전이 구축된 경우, 자연어 처리 단계에서 사전에 포함된 텍스트 정보가 빠짐없이 구성되어 있는지 재확인할 수 있다.

3) 수치화 기준 설정

텍스트 데이터를 어떤 방식으로 수치화할 것인지 기준을 설정해야 한다.
소셜 미디어의 텍스트 내용에 특정한 분석 프레임을 적용하고자 한다면, 형태소와 구문 데이터를 전처리해 수치화하는 단계에서 분석 프레임을 설정해야 한다.
소셜 빅데이터 마이닝을 통한 미디어 분석 방법이 수행되는 경우, 검색엔진으로 모은 데이터를 소셜 미디어에서 수집된 최초의 데이터로 상정한다.

4) 가중치 설정

여러가지 변인들을 감안해 해당 수치를 산정하고 이를 기존 계산식에 적용해 분석하는 경우가 빈번히 발생한다.
텍스트 데이터의 수치화 설정 단계같이 가중치를 부여하는 단곙서도 해당 데이터 세트는 검색엔진에서 수집된 데이터를 기준으로 하는 경우가 대부분이다.

5. 통계 분석과 결과 도출

1) 수치 표준화와 지수화

수치들을 표준화하면 분석하고자 하는 이슈의 확산 과정에 대해 보다 객관적 평가가 가능하다.
분석 결과인 데이터 수치를 표준화하는 방법으로는 각 수치를 지수화하는 방법이 있다.
지수화 작업 같은 수치 표중화 과정을 통해 데이터 분석 결과를 다양하게 해석할 수 있다.
비교 가능한 사례들이 축적되고 더욱 많은 지수들이 생산되면, 지수들을 묶고 통합하는 방식으로 계속해서 데이터의 설명력을 높여 나갈 수 있다.

2) 통계 방법 설정과 적용

통계 방법을 적용하면서 데이터 수치를 표준화하고 이를 지수화하는 과정을 동시에 고려해야한다.
작업 순서상 분석 결과 값을 어떻게 표준화하고 지수화할 것인지 충분히 계획을 세우고 난 후 통계 방법을 설정하고 적용하는 단계에 진입해야 한다.
컴퓨터공학과 통계학에서 마이닝은 데이터 수집, 분석, 처리 등 일련의 과정을 모두 포함한 개념이다.
추리적 통계 기법은 기본적으로 모집단을 가정해 추리하는 방법이다.

3) 결과 도출과 제시

데이터가 해석 가능한 표준화 수치로 탈바꿈되는 과정을 통해 통계 분석을 마치면 분석 결과를 도출하고 해석 내용을 제시하는 작업이 수행된다.
먼저 분석에 개입된 연구자나 분석에 참여한 동료들이 수행한 작업의 결과물과, 프로그래밍된 시스템에 의해 분석된 데이터 결과들을 각가 구분해 제시할 필요가 있다.
다음으로 컴퓨터가 개입된 전자적 처리방식으로 도출된 데이터의 경우에는 데이터 수집에 활용된 시스템 종류나 작업 방식, 횟수, 기간 등을 분석 결과와 함께 제시할 필요가 있다.
마지막으로 어떤 전제를 토대로 얻어진 데이터 분석 결과인지 언급도 필요하다.

출처 : 소셜 빅데이터 마이닝을 활용한 미디어 분석 방법 (최홍규)

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=114951327

소셜 빅데이터 마이닝을 활용한 미디어 분석 방법

커뮤니케이션이해총서. 소셜 빅데이터 마이닝은 미디어 분석 연구자에게 더욱 중요해지고 있다. 이 책은 연구자뿐 아니라 소셜 빅데이터 마이닝의 공학적 분석 기술에 익숙하지 않은 이들에게도 유용한 관련 개념과 ...

www.aladin.co.kr

저작자표시 (새창열림)

'인공지능 > 데이터 사이언스' 카테고리의 다른 글

데이터 분석 연습2 - 서울시 범죄 현황 분석 (1)	2020.06.19
데이터 분석 연습1 - 서울시 구별 CCTV 현황 분석 (0)	2020.05.10
소셜 빅데이터 마이닝 개념과 분석 유형 (0)	2020.02.20
관계형 데이터 모델의 기초 (0)	2020.01.19
데이터베이스의 기초 (0)	2020.01.19

현재글소셜 데이터 마이닝 분석

Truman Show

딥러닝을 공부하는 블로그입니다.

서울맛집, 딥러닝, Oracle, 인공지능, Python, 오라클, 맛집, pandas, Ai, 의료영상, 머신러닝, 파이토치, r, 리눅스, 파이썬, 크롤링, 코딩, 함수, CNN, SQL,

Today :
Yesterday :

Truman Show

소셜 데이터 마이닝 분석

1. 주요 분석 내용 설정

1) 분석 주제

2) 분석 방법

3) 분석 범위와 수준

2. 수집 데이터 설정

1) 데이터 수준과 정의

2) 데이터 세트 단위

3) 데이터 수집 시점과 전체 수집 기간

3. 데이터 수집

1) 크롤링

2) ETL

3) 필터링

4) 사전구축

4. 자연어 처리와 코딩

1) 자연어 처리

2) 자연어 처리와 미디어 분석

3) 수치화 기준 설정

4) 가중치 설정

5. 통계 분석과 결과 도출

1) 수치 표준화와 지수화

2) 통계 방법 설정과 적용

3) 결과 도출과 제시

'인공지능 > 데이터 사이언스' 카테고리의 다른 글

'인공지능/데이터 사이언스'의 다른글

티스토리툴바

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

소셜 데이터 마이닝 분석

1. 주요 분석 내용 설정

1) 분석 주제

2) 분석 방법

3) 분석 범위와 수준

2. 수집 데이터 설정

1) 데이터 수준과 정의

2) 데이터 세트 단위

3) 데이터 수집 시점과 전체 수집 기간

3. 데이터 수집

1) 크롤링

2) ETL

3) 필터링

4) 사전구축

4. 자연어 처리와 코딩

1) 자연어 처리

2) 자연어 처리와 미디어 분석

3) 수치화 기준 설정

4) 가중치 설정

5. 통계 분석과 결과 도출

1) 수치 표준화와 지수화

2) 통계 방법 설정과 적용

3) 결과 도출과 제시

'인공지능 > 데이터 사이언스' 카테고리의 다른 글

'인공지능/데이터 사이언스'의 다른글

관련글

티스토리툴바