인공지능/데이터분석

소셜 데이터 마이닝 분석

해피밀세트 2020. 2. 22. 21:36
반응형

 

1. 주요 분석 내용 설정

1) 분석 주제

  • 분석 주제 설정을 통해 구체적으로 어떤 사회현상과 그 세부 내용을 다룰 것인지 정한다.
  • 이 과정에서 연구자는 분석의 효율성과 타당성을 먼저 살펴보아야 한다.
  • 인적, 물적 자원의 투입 대비 효율 측면에서 기존의 방법론에 비해 이점이 없다면 분석주제를 다시 고려해보아야 한다. 
  • 소셜 미디어의 '전수'데이터를 활용한다는 가정하에 적절한 분석 방법인지 따져봐야 한다.

 

2) 분석 방법

  • 소셜 미디어 데이터를 분석할 수 있는 방법론 : ①미디어 내용 분석, ②이용자 반응·효과 분석, ③이용자 혹은 미디어 기업 간 관계 분석 등
  • 각각의 분석 방법은 분석 주제에 따라 설정하는데, 이때 분석을 수행하기 위해 필요한 변인의 종류나 규모, 세부 통계 방법 등도 구체화해야 한다.
  • ① 미디어 내용 분석 : 분석하려는 데이터가 분석 대상인 소셜 미디어 플랫폼 외 경우에서 수집된 사례는 없는지 살펴보아야 한다.
  • ② 이용자 반응·효과 분석 : 소셜 미디어 이용자들이 전체 수용자들의 어느 정도 비율을 반영하는지 추산해 보아야 한다.
  • 이용자 혹은 미디어 기업 간 관계 분석 : 네트워크가 온/오프라인 전체 사회의 개체간 관계를 빠짐없이 설명하는지 살펴봐야 한다.

 

3) 분석 범위와 수준

  • 분석 범위는 소셜 빅데이터가 분포된 공간의 규모와 데이터 종류, 총량으로 설정된다.
  • 분석 수준을 결정할 땐 '클릭스트림'을 감안하는것이 좋다.
  • 연구자는 우선 분석 범위 내 데이터가 수집 가능한 데이터로 구성되어 있는지 살펴봐야 한다.
  • 미디어 내용 분석, 이용자 반응/효과 분석, 이용자 혹은 미디어 기업 간 관계 분석 등의 분석 시 연동되는 데이터 소스가 어떤 형태인지 살펴보아야 한다.

 

 

 

2. 수집 데이터 설정

1) 데이터 수준과 정의

  • 소셜 빅데이터 분석을 위해서는 이슈, 키워드, 소셜 텍스트 등 데이터 수집 내용을 수준별로 구분하고 이에 대한 개념을 설정해야한다.
  • 소셜 빅데이터 분석은 다양한 분야의 전문가들이 협업으로 분석하기 때문에 합의된 용어 사용이 필수이다.
  • 데이터는 이슈, 키워드, 소셜 텍스트 등으로 그 수준을 개념화 할 수 있다.
    - 이슈 : 분석하고자 하는 대상이 되는 논쟁적 시안으로 소셜 미디어에서 논의되는 주제
    - 키워드 : 이슈를 분석한 내용의 개념이자, 소셜 빅데이터를 분석하기 위한 도구로 쓰이는 개념
    - 소셜 텍스트 : 소셜 빅테이터 마이닝 방식으로 수집된 정형 · 반정형 · 비정형 데이터 집합

 

2) 데이터 세트 단위

  • 소셜 텍스트에 포함된 정보 중 분석을 위해 필요한 데이터를 추려 내는 과정이자 분석 가능한 정보들로 변환하는 단계
  • 데이터 세트 단위는 게시글, 댓글, 작성자, 게시 날짜, 조회 수, 공유 수, 추천 수 등이 있다.
  • 데이터 수집 프로그램을 통해 수집한 초기 단계의 데이터 세트는 정형, 반정형, 비정형 등 다양한 형태로 이루어져 있다.

 

3) 데이터 수집 시점과 전체 수집 기간

  • 소셜 미디어의 특성상 데이터 생성, 수집, 분석 결과 해석 등 전 과정에서 실제 데이터 내용은 계속 바뀔 수 있다.
  • 데이터를 수집하고 이를 통계적으로 분석하는 시점 정도를 작업 초기에 구분하는 것이 효율적이다.
  • 데이터 수집 시점 기준을 정해 표기할 때는 데이터 수집 시점의 연도, 날짜, 시간, 분 등 향후 분별이 가능한 값을 최대한 자세히 제시하는 것이 좋다.
  • 데이터 동질성을 확보하기 위해 데이터 수집에 소요되는 총 기간은 최소화하는 것이 좋다.
  • 데이터 수집 시점과 기간으로 이냏 변화하는 데이터 내용을 적시해 표현할 수 있다. 

 

 

 

3. 데이터 수집

1) 크롤링

  • 웹페이지에서 HTML 코드로 구성된 데이터를 수집하는 일련의 방식
  • 인터넷 네트워크를 통해 외부에 서버를 둔 데이터 베이스에서 데이터를 수집하는 방식
  • 크롤링을 수행하는 크롤러는 웹페이지와 URL 내용을 추출해 지속적으로 해당 내용이 담긴 공간에 접근해 데이터 수집과 분석에 필요한 정보를 도출한다.

 

2) ETL

  • 내부 데이터베이스의 데이터를 분석하는 대표 수집 방법
  • 분석하는 주체가 생산한 내부 데이터와 외부 데이터를 연동하여 데이터를 수집하고 이 수집 결과를 매칭해 분석하는 방식
  • ETL 수집 방법을 통해 분석에 필요한 데이터는 추출되고 변환되며 분석 시스템으로 적재되는 과정을 거친다.
  • 내/외부 데이터 수집 방식에 대한 이해력을 토대로 수집 시스템을 설계하면 더욱 질 높은 분석 결과를 얻을 수 있다.

 

3) 필터링

  • 데이터 정제의 단계
  • 필터링이 필요한 경우
    - 잘못된 키워드를 중심으로 데이터가 수집된 경우 : 예상했던 데이터 수집 결과와 전혀 다르게 나옴
    - 정보가 부족한 키워드를 중심으로 데이터가 수집된 경우 : 데이터 결측값 다량 생산
    - 불필요하게 많은 정보가 담긴 키워드를 중심으로 데이터가 수집된 경우 : 의미있는 분석 결과를 얻을 확률이 줄어듬

 

4) 사전구축

  • 사전을 구축하는 과정을 통해 오피니언 마이닝이 더욱 체계적으로 수행된다.
  • 구축된 사전의 내용에서 텍스트에 관한 연구자의 시각이 드러난다.
  • 투입되는 작업량이 현저히 많고, 사전 내용에서도 정확도를 지속적으로 유지하기 어렵다는 이유로 사전 구축 작업이 배제되는 경우도 있다.
  • 최근 데이터 세트의 의미분석에 대한 중요성이 부각되면서 사전 구축 단계의 중요도가 높아졌다.

 

 

 

4. 자연어 처리와 코딩

1) 자연어 처리

  • 자연어 처리는 컴퓨터와 인간의 언어 간 상호작용에 대해 연구하는 분야다.
  • 자연어 처리는 기계 학습 분야와 함께 텍스트 마이닝의 전처리 단계에 응용된다.
  • 의미 단위를 최소화하여 텍스트를 쪼개고 이를 수집해 인식, 분류, 요약, 해석하는 등의 작업을 수행하는 기초적 데이터 처리단계이다.
  • 텍스트는 명사, 형용사, 동사 등의 형태소를 포함한 구문으로 추출되며 의미의 최소 단위를 중심으로도 수집이 가능하다.

 

2) 자연어 처리와 미디어 분석

  • 자연어 처리를 통해 의미의 최소 단위를 구분하고 이를 통해 개체명을 도출해 관계를 분석
  • 자연어 처리를 통해 이뤄지는 형태소나 구문 데이터가 어떤 방식으로 분류되고 색인화 되는 지 규칙성을 살펴봐야한다.
  • 데이터 수집 단계에서 시작된 필토링, 사전 구축 작업 등이 자연어 처리 단계와 제대로 연동되어 수행되는지 검토도 필요하다.
  • 데이터 수집을 통해 사전이 구축된 경우, 자연어 처리 단계에서 사전에 포함된 텍스트 정보가 빠짐없이 구성되어 있는지 재확인할 수 있다.

 

3) 수치화 기준 설정

  • 텍스트 데이터를 어떤 방식으로 수치화할 것인지 기준을 설정해야 한다.
  • 소셜 미디어의 텍스트 내용에 특정한 분석 프레임을 적용하고자 한다면, 형태소와 구문 데이터를 전처리해 수치화하는 단계에서 분석 프레임을 설정해야 한다.
  • 소셜 빅데이터 마이닝을 통한 미디어 분석 방법이 수행되는 경우, 검색엔진으로 모은 데이터를 소셜 미디어에서 수집된 최초의 데이터로 상정한다.

 

4) 가중치 설정

  • 여러가지 변인들을 감안해 해당 수치를 산정하고 이를 기존 계산식에 적용해 분석하는 경우가 빈번히 발생한다.
  • 텍스트 데이터의 수치화 설정 단계같이 가중치를 부여하는 단곙서도 해당 데이터 세트는 검색엔진에서 수집된 데이터를 기준으로 하는 경우가 대부분이다.

 

 

 

5. 통계 분석과 결과 도출

1) 수치 표준화와 지수화

  • 수치들을 표준화하면 분석하고자 하는 이슈의 확산 과정에 대해 보다 객관적 평가가 가능하다.
  • 분석 결과인 데이터 수치를 표준화하는 방법으로는 각 수치를 지수화하는 방법이 있다.
  • 지수화 작업 같은 수치 표중화 과정을 통해 데이터 분석 결과를 다양하게 해석할 수 있다.
  • 비교 가능한 사례들이 축적되고 더욱 많은 지수들이 생산되면, 지수들을 묶고 통합하는 방식으로 계속해서 데이터의 설명력을 높여 나갈 수 있다.

 

2) 통계 방법 설정과 적용

  • 통계 방법을 적용하면서 데이터 수치를 표준화하고 이를 지수화하는 과정을 동시에 고려해야한다.
  • 작업 순서상 분석 결과 값을 어떻게 표준화하고 지수화할 것인지 충분히 계획을 세우고 난 후 통계 방법을 설정하고 적용하는 단계에 진입해야 한다.
  • 컴퓨터공학과 통계학에서 마이닝은 데이터 수집, 분석, 처리 등 일련의 과정을 모두 포함한 개념이다.
  • 추리적 통계 기법은 기본적으로 모집단을 가정해 추리하는 방법이다.

 

3) 결과 도출과 제시

  • 데이터가 해석 가능한 표준화 수치로 탈바꿈되는 과정을 통해 통계 분석을 마치면 분석 결과를 도출하고 해석 내용을 제시하는 작업이 수행된다.
  • 먼저 분석에 개입된 연구자나 분석에 참여한 동료들이 수행한 작업의 결과물과, 프로그래밍된 시스템에 의해 분석된 데이터 결과들을 각가 구분해 제시할 필요가 있다.
  • 다음으로 컴퓨터가 개입된 전자적 처리방식으로 도출된 데이터의 경우에는 데이터 수집에 활용된 시스템 종류나 작업 방식, 횟수, 기간 등을 분석 결과와 함께 제시할 필요가 있다.
  • 마지막으로 어떤 전제를 토대로 얻어진 데이터 분석 결과인지 언급도 필요하다.

 


 

출처 : 소셜 빅데이터 마이닝을 활용한 미디어 분석 방법 (최홍규)

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=114951327

 

소셜 빅데이터 마이닝을 활용한 미디어 분석 방법

커뮤니케이션이해총서. 소셜 빅데이터 마이닝은 미디어 분석 연구자에게 더욱 중요해지고 있다. 이 책은 연구자뿐 아니라 소셜 빅데이터 마이닝의 공학적 분석 기술에 익숙하지 않은 이들에게도 유용한 관련 개념과 ...

www.aladin.co.kr

 

반응형