극단적 불균형 데이터 분류를 위한 SMOTE 비교연구
- Abstract
- 최근 일반적이지 않은 상황을 기계학습으로 해결하기 위한 다양한 연구가 이어지고 있다. 기계학습 과정에서 불균형 데이터 처리기법의 필요성이 제기되었다. 클래스가 불균형한 데이터를 처리하기 위한 방 법 중 오버샘플링의 대표적인 방법으로 SMOTE가 있다. 하지만 오버 샘플링 방법으로 생성한 데이터가 비현실적인 자료를 생성한다는 점 이 지적되었고, 이에 따라 원자료와 유사한 데이터를 생성하기 위해 SMOTE와 후속 연구들에 적용되는 가중치의 분포를 변경하여 가중 치의 비대칭도를 조정하였다. 본 논문에서는 자료의 불균형 정도가 높은 데이터 셋과 분류분석에 사용되는 여러 분류기를 사용하여 기존 의 방법과 가중치 분포의 비대칭도를 조정한 방법을 비교한다. |Recently, various studies are being conducted to solve unusual situations through machine learning. In the process of machine learning, the need for unbalanced data processing techniques was raised. Among the methods for processing data with unbalanced classes, SMOTE is a representative method of oversampling. However, it was pointed out that the data generated by the oversampling method generates unrealistic data, and accordingly, the asymmetry of the weights was adjusted by changing the distribution of weights applied to SMOTE and subsequent studies to generate data similar to the original data. In this paper, the existing method and the method of adjusting the asymmetry of the weight distribution are compared using a dataset with a high degree of data imbalance and several classifiers used for classification analysis.
- Author(s)
- 정병준
- Issued Date
- 2024
- Awarded Date
- 2024-02
- Type
- Dissertation
- Publisher
- 국립부경대학교 대학원
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/33664
http://pknu.dcollection.net/common/orgView/200000735465
- Alternative Author(s)
- JeongByungjun
- Affiliation
- 국립부경대학교 대학원
- Department
- 대학원 통계학과
- Advisor
- 엄태웅
- Table Of Contents
- 1. 서론 1
2. 관련 연구 · 5
2.1 SMOTE · 5
2.2 Borderline SMOTE · 6
2.3 Safe Level SMOTE 8
3. 제안 방법 10
4. 실험 및 결과 12
4.1 실험 설계 12
4.2 실험 결과 15
5. 결론 및 고찰 24
6. Reference 25
Abstract 28
Appendix 29
- Degree
- Master
-
Appears in Collections:
- 대학원 > 통계학과
- Authorize & License
-
- Authorize공개
- Embargo2024-02-16
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.