1. 주요 분석 내용 설정
1) 분석 주제
- 분석 주제 설정을 통해 구체적으로 어떤 사회현상과 그 세부 내용을 다룰 것인지 정한다.
- 이 과정에서 연구자는 분석의 효율성과 타당성을 먼저 살펴보아야 한다.
- 인적, 물적 자원의 투입 대비 효율 측면에서 기존의 방법론에 비해 이점이 없다면 분석주제를 다시 고려해보아야 한다.
- 소셜 미디어의 '전수'데이터를 활용한다는 가정하에 적절한 분석 방법인지 따져봐야 한다.
2) 분석 방법
- 소셜 미디어 데이터를 분석할 수 있는 방법론 : ①미디어 내용 분석, ②이용자 반응·효과 분석, ③이용자 혹은 미디어 기업 간 관계 분석 등
- 각각의 분석 방법은 분석 주제에 따라 설정하는데, 이때 분석을 수행하기 위해 필요한 변인의 종류나 규모, 세부 통계 방법 등도 구체화해야 한다.
- ① 미디어 내용 분석 : 분석하려는 데이터가 분석 대상인 소셜 미디어 플랫폼 외 경우에서 수집된 사례는 없는지 살펴보아야 한다.
- ② 이용자 반응·효과 분석 : 소셜 미디어 이용자들이 전체 수용자들의 어느 정도 비율을 반영하는지 추산해 보아야 한다.
- ③ 이용자 혹은 미디어 기업 간 관계 분석 : 네트워크가 온/오프라인 전체 사회의 개체간 관계를 빠짐없이 설명하는지 살펴봐야 한다.
3) 분석 범위와 수준
- 분석 범위는 소셜 빅데이터가 분포된 공간의 규모와 데이터 종류, 총량으로 설정된다.
- 분석 수준을 결정할 땐 '클릭스트림'을 감안하는것이 좋다.
- 연구자는 우선 분석 범위 내 데이터가 수집 가능한 데이터로 구성되어 있는지 살펴봐야 한다.
- 미디어 내용 분석, 이용자 반응/효과 분석, 이용자 혹은 미디어 기업 간 관계 분석 등의 분석 시 연동되는 데이터 소스가 어떤 형태인지 살펴보아야 한다.
2. 수집 데이터 설정
1) 데이터 수준과 정의
- 소셜 빅데이터 분석을 위해서는 이슈, 키워드, 소셜 텍스트 등 데이터 수집 내용을 수준별로 구분하고 이에 대한 개념을 설정해야한다.
- 소셜 빅데이터 분석은 다양한 분야의 전문가들이 협업으로 분석하기 때문에 합의된 용어 사용이 필수이다.
- 데이터는 이슈, 키워드, 소셜 텍스트 등으로 그 수준을 개념화 할 수 있다.
- 이슈 : 분석하고자 하는 대상이 되는 논쟁적 시안으로 소셜 미디어에서 논의되는 주제
- 키워드 : 이슈를 분석한 내용의 개념이자, 소셜 빅데이터를 분석하기 위한 도구로 쓰이는 개념
- 소셜 텍스트 : 소셜 빅테이터 마이닝 방식으로 수집된 정형 · 반정형 · 비정형 데이터 집합
2) 데이터 세트 단위
- 소셜 텍스트에 포함된 정보 중 분석을 위해 필요한 데이터를 추려 내는 과정이자 분석 가능한 정보들로 변환하는 단계
- 데이터 세트 단위는 게시글, 댓글, 작성자, 게시 날짜, 조회 수, 공유 수, 추천 수 등이 있다.
- 데이터 수집 프로그램을 통해 수집한 초기 단계의 데이터 세트는 정형, 반정형, 비정형 등 다양한 형태로 이루어져 있다.
3) 데이터 수집 시점과 전체 수집 기간
- 소셜 미디어의 특성상 데이터 생성, 수집, 분석 결과 해석 등 전 과정에서 실제 데이터 내용은 계속 바뀔 수 있다.
- 데이터를 수집하고 이를 통계적으로 분석하는 시점 정도를 작업 초기에 구분하는 것이 효율적이다.
- 데이터 수집 시점 기준을 정해 표기할 때는 데이터 수집 시점의 연도, 날짜, 시간, 분 등 향후 분별이 가능한 값을 최대한 자세히 제시하는 것이 좋다.
- 데이터 동질성을 확보하기 위해 데이터 수집에 소요되는 총 기간은 최소화하는 것이 좋다.
- 데이터 수집 시점과 기간으로 이냏 변화하는 데이터 내용을 적시해 표현할 수 있다.
3. 데이터 수집
1) 크롤링
- 웹페이지에서 HTML 코드로 구성된 데이터를 수집하는 일련의 방식
- 인터넷 네트워크를 통해 외부에 서버를 둔 데이터 베이스에서 데이터를 수집하는 방식
- 크롤링을 수행하는 크롤러는 웹페이지와 URL 내용을 추출해 지속적으로 해당 내용이 담긴 공간에 접근해 데이터 수집과 분석에 필요한 정보를 도출한다.
2) ETL
- 내부 데이터베이스의 데이터를 분석하는 대표 수집 방법
- 분석하는 주체가 생산한 내부 데이터와 외부 데이터를 연동하여 데이터를 수집하고 이 수집 결과를 매칭해 분석하는 방식
- ETL 수집 방법을 통해 분석에 필요한 데이터는 추출되고 변환되며 분석 시스템으로 적재되는 과정을 거친다.
- 내/외부 데이터 수집 방식에 대한 이해력을 토대로 수집 시스템을 설계하면 더욱 질 높은 분석 결과를 얻을 수 있다.
3) 필터링
- 데이터 정제의 단계
- 필터링이 필요한 경우
- 잘못된 키워드를 중심으로 데이터가 수집된 경우 : 예상했던 데이터 수집 결과와 전혀 다르게 나옴
- 정보가 부족한 키워드를 중심으로 데이터가 수집된 경우 : 데이터 결측값 다량 생산
- 불필요하게 많은 정보가 담긴 키워드를 중심으로 데이터가 수집된 경우 : 의미있는 분석 결과를 얻을 확률이 줄어듬
4) 사전구축
- 사전을 구축하는 과정을 통해 오피니언 마이닝이 더욱 체계적으로 수행된다.
- 구축된 사전의 내용에서 텍스트에 관한 연구자의 시각이 드러난다.
- 투입되는 작업량이 현저히 많고, 사전 내용에서도 정확도를 지속적으로 유지하기 어렵다는 이유로 사전 구축 작업이 배제되는 경우도 있다.
- 최근 데이터 세트의 의미분석에 대한 중요성이 부각되면서 사전 구축 단계의 중요도가 높아졌다.
4. 자연어 처리와 코딩
1) 자연어 처리
- 자연어 처리는 컴퓨터와 인간의 언어 간 상호작용에 대해 연구하는 분야다.
- 자연어 처리는 기계 학습 분야와 함께 텍스트 마이닝의 전처리 단계에 응용된다.
- 의미 단위를 최소화하여 텍스트를 쪼개고 이를 수집해 인식, 분류, 요약, 해석하는 등의 작업을 수행하는 기초적 데이터 처리단계이다.
- 텍스트는 명사, 형용사, 동사 등의 형태소를 포함한 구문으로 추출되며 의미의 최소 단위를 중심으로도 수집이 가능하다.
2) 자연어 처리와 미디어 분석
- 자연어 처리를 통해 의미의 최소 단위를 구분하고 이를 통해 개체명을 도출해 관계를 분석
- 자연어 처리를 통해 이뤄지는 형태소나 구문 데이터가 어떤 방식으로 분류되고 색인화 되는 지 규칙성을 살펴봐야한다.
- 데이터 수집 단계에서 시작된 필토링, 사전 구축 작업 등이 자연어 처리 단계와 제대로 연동되어 수행되는지 검토도 필요하다.
- 데이터 수집을 통해 사전이 구축된 경우, 자연어 처리 단계에서 사전에 포함된 텍스트 정보가 빠짐없이 구성되어 있는지 재확인할 수 있다.
3) 수치화 기준 설정
- 텍스트 데이터를 어떤 방식으로 수치화할 것인지 기준을 설정해야 한다.
- 소셜 미디어의 텍스트 내용에 특정한 분석 프레임을 적용하고자 한다면, 형태소와 구문 데이터를 전처리해 수치화하는 단계에서 분석 프레임을 설정해야 한다.
- 소셜 빅데이터 마이닝을 통한 미디어 분석 방법이 수행되는 경우, 검색엔진으로 모은 데이터를 소셜 미디어에서 수집된 최초의 데이터로 상정한다.
4) 가중치 설정
- 여러가지 변인들을 감안해 해당 수치를 산정하고 이를 기존 계산식에 적용해 분석하는 경우가 빈번히 발생한다.
- 텍스트 데이터의 수치화 설정 단계같이 가중치를 부여하는 단곙서도 해당 데이터 세트는 검색엔진에서 수집된 데이터를 기준으로 하는 경우가 대부분이다.
5. 통계 분석과 결과 도출
1) 수치 표준화와 지수화
- 수치들을 표준화하면 분석하고자 하는 이슈의 확산 과정에 대해 보다 객관적 평가가 가능하다.
- 분석 결과인 데이터 수치를 표준화하는 방법으로는 각 수치를 지수화하는 방법이 있다.
- 지수화 작업 같은 수치 표중화 과정을 통해 데이터 분석 결과를 다양하게 해석할 수 있다.
- 비교 가능한 사례들이 축적되고 더욱 많은 지수들이 생산되면, 지수들을 묶고 통합하는 방식으로 계속해서 데이터의 설명력을 높여 나갈 수 있다.
2) 통계 방법 설정과 적용
- 통계 방법을 적용하면서 데이터 수치를 표준화하고 이를 지수화하는 과정을 동시에 고려해야한다.
- 작업 순서상 분석 결과 값을 어떻게 표준화하고 지수화할 것인지 충분히 계획을 세우고 난 후 통계 방법을 설정하고 적용하는 단계에 진입해야 한다.
- 컴퓨터공학과 통계학에서 마이닝은 데이터 수집, 분석, 처리 등 일련의 과정을 모두 포함한 개념이다.
- 추리적 통계 기법은 기본적으로 모집단을 가정해 추리하는 방법이다.
3) 결과 도출과 제시
- 데이터가 해석 가능한 표준화 수치로 탈바꿈되는 과정을 통해 통계 분석을 마치면 분석 결과를 도출하고 해석 내용을 제시하는 작업이 수행된다.
- 먼저 분석에 개입된 연구자나 분석에 참여한 동료들이 수행한 작업의 결과물과, 프로그래밍된 시스템에 의해 분석된 데이터 결과들을 각가 구분해 제시할 필요가 있다.
- 다음으로 컴퓨터가 개입된 전자적 처리방식으로 도출된 데이터의 경우에는 데이터 수집에 활용된 시스템 종류나 작업 방식, 횟수, 기간 등을 분석 결과와 함께 제시할 필요가 있다.
- 마지막으로 어떤 전제를 토대로 얻어진 데이터 분석 결과인지 언급도 필요하다.
출처 : 소셜 빅데이터 마이닝을 활용한 미디어 분석 방법 (최홍규)
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=114951327
반응형
'인공지능 > 데이터 사이언스' 카테고리의 다른 글
데이터 분석 연습2 - 서울시 범죄 현황 분석 (1) | 2020.06.19 |
---|---|
데이터 분석 연습1 - 서울시 구별 CCTV 현황 분석 (0) | 2020.05.10 |
소셜 빅데이터 마이닝 개념과 분석 유형 (0) | 2020.02.20 |
관계형 데이터 모델의 기초 (0) | 2020.01.19 |
데이터베이스의 기초 (0) | 2020.01.19 |