실시간 크롤링을 통한 웹 마이닝 최적화 분산처리시스템 설계
- Alternative Title
- Distributed Processing Systems Design For Web Mining Optimization Through Realtime Crawling
- Abstract
- The media such as newspapers, televisions, radios and magazines played the important role in informing people about the facts that have occurred. Nowadays, the development of information and communication technology and the Internet makes it possible to access to various news more easily, and the influence of the media providing information that can form public opinion is larger and larger.
According to the statistics of registration notification for “Internet newspaper" published by the Ministry of Culture, Sports and Tourism, the number of Internet newspapers was 286 in 2005, 2,484 in 2010, and 6,605 in 2015. With the spread of the Internet, the emergence of mobile devices, and the development of networks, the number has increased more than 23 times in 10 years. It has been utilized as a research subject of many researchers as reflecting the use value of users. However, since most article analysis studies do not reflect up-to-date information, it is difficult to predict accurately the direction of public opinions that change over time. Therefore, it is necessary to study the method for quickly analyzing news data generated in real-time with the latest information.
This research constructed a real-time analysis system for 150 Internet newspaper companies in Korea as the objects of the study. Through the web mining process of desired Internet news articles, various visualizations were presented through real-time data collection and text mining analysis, and the Hadoop system, a distributed processing technology for rapid processing, was also applied. The opinion mining analysis of Netizen’s comments in real-time collected news and standard dictionaries will be opened to the public, which will be helpful for future researchers.
Listening to customers and analyzing consumer’s patterns and needs quickly will help the companies to establish operations and strategies. We expect that this study will contribute to the development of big data processing system that can deal with real-time processing not only simple frequency analysis but also association analysis, cluster analysis, classification analysis, and predictive analysis.
- Author(s)
- 이종화
- Issued Date
- 2017
- Awarded Date
- 2017. 8
- Type
- Dissertation
- Keyword
- Association Analysis Web Mining Text Mining Opinion Mining Real-time Processing
- Publisher
- 부경대학교
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/14417
http://pknu.dcollection.net/common/orgView/000002379738
- Alternative Author(s)
- Lee JongHwa
- Affiliation
- 부경대학교 대학원
- Department
- 대학원 경영학과
- Advisor
- 이현규
- Table Of Contents
- 제 1 장 서 론 1
제 1 절 연구의 배경 및 목적 1
1. 연구의 배경 1
2. 연구의 목적 3
제 2 절 연구의 범위 및 구성 4
1. 연구의 범위 4
2. 연구의 구성 5
제 2 장 이론적 배경 6
제 1 절 웹 마이닝(Web Mining) 6
1. 웹 마이닝 6
2. 웹 마이닝 분류 6
3. 웹 마이닝 사례 8
제 2 절 데이터 마이닝(Data Mining) 9
1. 데이터 마이닝 9
2. 텍스트 마이닝 11
3. 소셜 네트워크 분석 12
4. 연관 분석(Association Analysis) 13
제 3 절 오피니언 마이닝(Opinion Mining) 14
1. 오피니언 마이닝 14
2. 오피니언 마이닝 분류 15
3. 오피니언 마이닝 분류별 연구 사례 17
제 4 절 비표준어-한글(Nonstandard Words-Korean) 18
1. 비표준어 18
2. 비표준어-한글 연구 사례 19
제 5 절 한글자연어처리(KoNLP) 22
1. 자연어 처리 22
2. KoNLP 패키지 연구 사례 23
제 6 절 오픈 소스 소프트웨어(Open Source Software) 26
1. 자바스크립트(JavaScript) 27
2. 제이쿼리(JQuery) 28
3. 크롤링(Crawling) 30
제 7 절 분산처리시스템(Distributed Processing System) 31
1. 분산처리시스템 31
2. 하둡 기반 연구 사례 32
3. RHadoop 33
제 3 장 연구방법 34
제 1 절 연구 개요 및 개략 프레임워크 34
1. 연구 개요 34
2. 연구 프레임워크 35
제 2 절 상세 프레임워크 36
1. 데이터 크롤링 디자인 36
2. 한글 비표준어 처리 40
3. 웹 마이닝 디자인 43
4. RHadoop 디자인 48
제 4 장 실험 및 결과 52
제 1 절 실험 데이터 52
제 2 절 실험 설계 55
제 3 절 실험 결과 76
1. 2017-03-03 실험 결과 79
2. 2017-03-07 실험 결과 92
제 5 장 결 론 107
제 1 절 연구결과의 요약 107
제 2 절 연구의 시사점 110
제 3 절 연구의 한계점 및 향후 연구 113
참 고 문 헌 114
부 록 133
- Degree
- Doctor
-
Appears in Collections:
- 경영대학원 > 경영학과
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.