PUKYONG

데이터 예측 분석기를 위한 분류기 앙상블

Metadata Downloads
Alternative Title
Classifier Ensembles for Predictive Data Analytics
Abstract
데이터 분석은 데이터에서 의미 있는 패턴을 발견하기 위한 처리로서, 다양한 응용분야의 의사결정을 지원하기 위해 방대한 데이터 집합을 분석하는 컴퓨터 시스템 어플리케이션이다. 특히 분류 문제를 해결하는 것이 아주 복잡한 침입 탐지나 비정상 행위 탐지 등이 데이터 분석의 주요 분야이다. 그러나 불균형한 데이터 집합의 구성이나 잘못된 값 그리고 부적절한 특징 선택 기법들은 분류기를 복잡하게 만든다.

본 논문은 우선 이러한 문제점들을 해결하기 위해 비정상 행위 탐지나 초기의 당뇨병 탐지 분야에서 잘 알려진 분류기 앙상블들에 대한 비교를 수행한다. 본 연구의 실험결과는 분류기 앙상블이 침입 탐지나 당뇨병 예측을 위한 유망한 기법이 될 수 있음을 보여준다. 이러한 결과를 토대로 기존 침입 탐지 시스템보다 성능이 향상된 gradient boosted machine(GBM) 기반의 비정상 행위 기반의 침입 탐지 시스템을 제안한다.

또한 particle swarm optimization, ant colony optimization, genetic algorithm 기법들과 random forest, naive bayes tree, logistic model tree, reduces error pruning tree 기법들을 혼합한 효율적인 비정상 행위 탐지 방법을 제안하고, 하이브리드 특징 선택 기법과 앙상블 학습기 기반의 두 단계 분류기 앙상블 모델의 결합 방안에 대해 제안한다. 제안된 기법들은 정확성과 거짓 경보 비율에 있어서 기존의 기법들 보다 성능이 우수하다. 제안된 기법들의 우수성을 보이기 위해, 본 논문에서는 현행 침입 탐지 시스템에서는 아직 자주 활용되지 않는 두 단계의 통계적 중요도 테스트를 수행한다.
Author(s)
TAMA BAYU ADHI
Issued Date
2018
Awarded Date
2018.2
Type
Dissertation
Publisher
부경대학교
URI
https://repository.pknu.ac.kr:8443/handle/2021.oak/14009
http://pknu.dcollection.net/common/orgView/200000010831
Affiliation
부경대학교 대학원
Department
대학원 정보시스템협동과정
Advisor
이경현
Table Of Contents
1 Introduction 1
1.1 Motivation 1
1.2 Outline of the Thesis and Contributions 3
2 Predictive Data Analytics and Classifier Ensembles: An Overview 7
2.1 Predictive Data Analytics 7
2.1.1 Data Analytics and Data Mining 7
2.1.2 Predictive Analytics Process 8
2.1.3 Analytics Model 10
2.1.4 Resampling Strategies 11
2.1.4.1 Cross-validation 11
2.1.4.2 Multiple Runs of Resampling Methods 12
2.1.4.3 Random Subsampling 13
2.2 Classifier Ensembles 14
2.2.1 A Taxonomy of Classifier Ensembles 14
2.2.2 Types of Classifier Outputs 15
2.3 Experimental Benchmark of Classifiers 17
3 An Extensive Empirical Evaluation of Classifier Ensembles for Intrusion Detection Task 20
3.1 Introduction 20
3.2 Related Work 22
3.3 Methodology 24
3.3.1 Feature Reduction 24
3.3.2 Approach for Combining Weak Classifiers 26
3.3.3 Combination Schemes 27
3.3.4 Base Classifiers Used in the Experiment 29
3.3.5 Data set 32
3.3.6 Evaluation Metrics 33
3.4 Result and Discussion 34
3.4.1 Result of Feature Selection 34
3.4.2 Result of Classifier Ensemble 34
3.5 Conclusion 44
4 Tree-based Classifier Ensembles for Early Detection Method of Diabetes: An Exploratory Study 46
4.1 Introduction 46
4.2 Materials and Methods 50
4.2.1 Data sets 50
4.2.2 Classifier Ensembles 52
4.2.2.1 Bagging 53
4.2.2.2 Boosting 53
4.2.2.3 Random Subspace 54
4.2.2.4 DECORATE 55
4.2.2.5 Rotation Forest 55
4.2.3 Base Classifier Algorithms 55
4.2.4 Validation Method and Evaluation Measure 59
4.2.5 Statistical Significance Test 59
4.3 Result and Analysis 60
4.4 Conclusion 66
5 An In-depth Experimental Study of Anomaly Detection using Gradient Boosted Machine 67
5.1 Introduction 67
5.2 Classification Algorithms 71
5.2.1 Classifier Ensembles 71
5.2.1.1 Gradient Boosted Machine 71
5.2.1.2 Random Forest 73
5.2.2 Single Classifiers 74
5.2.2.1 Deep Neural Network 74
5.2.2.2 Support Vector Machine 74
5.2.2.3 CART 75
5.3 Experimental Design 76
5.3.1 Data set 76
5.3.2 Evaluation Metric and Validation Method 77
5.3.3 Statistical Significance Test 78
5.4 Result and Analysis 79
5.5 Conclusion 86
6 HFSTE: Hybrid Feature Selections and Tree-based Classifiers Ensemble for Intrusion Detection System 87
6.1 Introduction 87
6.2 Related Work 89
6.3 Proposed Approach 92
6.3.1 Feature Selection Algorithms 92
6.3.2 Base Classifiers 94
6.3.3 Classifiers Ensemble 95
6.3.4 The Proposed Model 96
6.4 Experimental Design 98
6.4.1 Experimental Setup 98
6.4.2 Data set Description 98
6.4.3 Performance Metrics 98
6.4.4 Statistical Significant Test 99
6.5 Experimental Result and Discussion 100
6.5.1 PSO Parameter Setting 100
6.5.2 ACO Parameter Setting 101
6.5.3 GA Parameter Setting 102
6.5.4 Classifiers Performance Result 103
6.6 Conclusion 108
7 An Improved Intrusion Detection System via Hybrid Feature Selection and Two-level Classifier Ensembles 109
7.1 Introduction 109
7.2 Related Work 111
7.3 Proposed Model and Methodology 113
7.3.1 Feature Selection 113
7.3.1.1 Particle swarm optimization 113
7.3.1.2 Ant Colony Optimization 114
7.3.1.3 Genetic Algorithm 114
7.3.2 Classifier Ensembles 115
7.3.2.1 Bagging 115
7.3.2.2 Rotation Forest 115
7.3.3 The Proposed Two-level Classifier Ensembles 116
7.3.4 Methodology 118
7.4 Experimental Design 120
7.4.1 Data set 120
7.4.2 Performance Measures 120
7.4.3 Statistical Test 121
7.5 Result and Discussion 122
7.5.1 Parameter Setting for Feature Selection 122
7.5.2 Performance Results and Benchmark 123
7.6 Conclusion 129
8 Conclusions and Future Work 130
8.1 Conclusions 130
8.2 Suggestions for Future Work 132
Degree
Doctor
Appears in Collections:
대학원 > 정보시스템협동과정
Authorize & License
  • Authorize공개
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.