PUKYONG

A Study on Corporate Customer Segmentation Based on Improved K Means Algorithm

Metadata Downloads
Alternative Title
향상된 K-Means 알고리즘에 기반한 기업 고객 세분화 연구
Abstract
Due to the popularity of mobile networks, the abundance of terminal devices, and access to enterprise mobile network services, enterprises continue to accumulate a large amount of data on customer purchase behavior. And due to the intense competition in the current corporate market, stabilizing customers has become an important operational goal for enterprises. How to uncover and utilize purchasing behavior data and understand customers' needs, how to precisely locate corporate customers and efficiently manage and serve different customers, reasonably allocate corporate resources, and carry out differentiated customer management so as to strengthen customer loyalty has become the embodiment of the value of theoretical research and practical application.
This paper conducts the following research work on the basis of analyzing the research results of domestic and foreign scholars in customer segmentation management. Taking the customers of e-commerce enterprises as the objects, the problem of e-commerce customer segmentation has been systematically studied from different aspects such as segmentation variables, segmentation techniques and segmentation models, respectively. Firstly, combining the characteristics of the type of enterprise and sales mode, under the framework of cross-industry data mining standard process CRISP-DM modeling, the Time interval ratio, frequency, average monetary are introduced as index parameters on the basis of the RFM model to build a segmentation variable model based on the e-commerce enterprise customer. Based on this model, the
unsupervised clustering algorithm K-means is improved. Since the clustering effect of this clustering algorithm is directly related to the selection of the initial center of mass, an initial center of mass selection algorithm based on the Gini value of density is proposed. By introducing the local density value ρ and Gini impurity value G, the original K-means algorithm can improve the problems of random selection of the initial center of mass and the poor clustering effect for non-clustered data sets, and by establishing a simulation platform, K-means, hierarchical clustering algorithm, DBSCAN algorithm, and the algorithm of this paper are compared and experimented with man-made data sets, and the efficiency and superiority of the improved K-means algorithm are proved. Finally, through real data of e-commerce enterprises, a method of customer segmentation of e-commerce enterprises with TFA model as segmentation variable combined with improved K-means algorithm as clustering technique is verified, and the experimental results prove that the method has good effectiveness of customer segmentation, and on this basis, the next research direction is proposed.
Keywords: customer segmentation, machine learning, data on purchasing behavior, peak density, Gini value, customer relationship management
모바일 인터넷의 보급과 다양한 단말장치 활용을 통해 대규모 데이터 확보가가능해짐에 따라 축적되는 고객 구매행위 데이터 역시 폭발적으로 증가하게되었다. 치열한 시장 경쟁 속에서 고객 구매행위에 대한 복합적 분석을 통해고객을 세분화하고 타겟팅하는 것은 기업 운영의 중요한 목표로서 인식되고 있다. 구매행위 데이터를 어떻게 발굴하고 이를 바탕으로 고객의 니즈를 어떻게충족시킬 것인지, 세분화된 고객 군들 중 어느 고객 군을 타겟팅할 것인지, 각고객 군별 관리 및 서비스는 어떻게 효율적으로 제공할 수 있는지, 기업의 한정된리소스를 어떻게 합리적으로 할당함으로써 차별화된 고객서비스를 제공할 수있는지, 고객충성도는 어떻게 높일 수 있는지 등은 불확실성이 높은 현재의시장경쟁체제에서 경쟁우위를 확보하기 위한 중요한 과제가 된다. 이는고객세분화 관리를 위한 이론적 연구가치 뿐만 아니라 현실적 응용가치를 실현할수 있는 기반으로서의 역할 또한 수행한다
국내외 다양한 관점에서 수행된 고객세분화 관리 관련 기존 연구들을바탕으로 본 연구는 전자 상거래 기업의 고객세분화 문제를 정의하고 이를해결하기 위한 체계적 방안을 제안하고자 한다. 이를 위하여 기업 고객을대상으로 세분화를 위한 변수를 정의하고 관련 기술 및 모델 등에 대한 다차원적분석을 시행한다. 우선, 업종별 데이터 발굴 표준 프로세스인 CRISP-DM 의 모델링프레임워크 하에서 기업 유형과 판매모델의 특징을 결합하여 RFM 모델에 기초한T(Time interval ratio), 구매빈도(Frequency), 평균 구매액(Average monetary)을파라미터로 도입하고 전자 상거래 기업의 고객 구매행위 데이터를 세분화한변수모델을 구축한다. 이를 활용하여 대표적 클러스터링 알고리즘인 K-means 알고리즘의 성능을 개선할 수 있는 방안을 제안한다. K-means 알고리즘은클러스터링 성능이 초기 centroid 설정에 직접적으로 영향을 받기 때문에 밀도지니데이터에 기초하여 초기 centroid 를 보다 효과적으로 선택할 수 있는알고리즘을 제시한다. 부분적 밀도값 ρ 와 지니불순도 G 를 도입함으로써 K-means 알고리즘의 초기 centroid 설정이 무작위로 이루어짐으로 인해 발생하는 부분최적화 및 클러스터링 효과 저하 등의 문제점을 개선한다. 또한, 시뮬레이션플랫폼을 구축하여 본 연구에서 제안하는 알고리즘과 기존의 K-means, 계층적클러스터링, DBSCAN 간 성능을 비교한다. 최종적으로 본 연구에서 제안한 개선된
K-means 알고리즘을 실제 전자 상거래 기업의 데이터에 적용함으로써 기업의고객세분화 방안을 검증하고 본 연구에서 제시한 방안의 실무적 효용성을입증한다.
키워드: 고객세분화; 머신러닝; 구매행위 데이터; 밀도 파고값; 지니데이타; 고객관계관리
Author(s)
PU XIAOCHUAN
Issued Date
2022
Awarded Date
2022. 2
Type
Dissertation
Keyword
customer segmentation machine learning data on purchasing behavior peak density Gini value customer relationship management
Publisher
부경대학교
URI
https://repository.pknu.ac.kr:8443/handle/2021.oak/24081
http://pknu.dcollection.net/common/orgView/200000598472
Affiliation
Pukyong National University, Graduate School of Management of Technology
Department
기술경영전문대학원 기술경영학과
Advisor
Wonchul Seo
Table Of Contents
I.INTRODUCTION 1
1.1Research background and significance 1
1.2Major innovation points and contents 3
1.3Research technical roadmap 5
II.LITERATURE OVERVIEW 6
2.1Research on enterprise customer segmentation 6
2.1.1Enterprise customer segmentation indexs 8
2.1.2Enterprise customer segmentation technologies 12
2.1.3Modelling principle for the enterprise customer segmentation model 19
2.2 Dataset analysis 24
2.2.1Data pre-processing 26
2.2.2Principal component analysis method 29
III.THE CUSTOMER SEGMENTATION MODEL BASED ON THE CUSTOMER’S PURCHASING BEHAVIOR DATA 35
3.1Introduction of the customer segmentation model based on RFM 35
3.2The customer segmentation model based on TFA 37
IV.THE CLUSTERING ALGORITHM DESIGN BASED ON CUSTOMER’S PURCHASING BEHAVIOR 45
4.1 Clustering Algorithm 45
4.1.1The classic K-means algorithm 45
4.1.2Hierarchical algorithm 47
4.1.3DBSCAN ALGORITHM 49
4.2 The optimization and improvement of K-means algorithm and clustering algorithm 51
4.2.1Density peak and Gini impurity 51
4.2.2Gradient descent algorithm. 56
4.2.3The improved K-means clustering algorithm 61
4.3 The evaluation method of algorithm 63
4.3.1Calinski-Harabaz Index 64
4.3.2AMI AND ARI INDEX 65
4.4 Experimental verification and result analysis of algorithm 67
V.CASE ANALYSIS 75
VI.CONCLUSION AND PROSPECT 80
6.1 Conclusion 80
6.2 Problems to be further studied 82
REFERENCES : 84
ACKNOWLEDGEMENTS 100
APPENDIX-1: LIST OF PYTHON’S LIBRARIES USED IN THE DEVELOPMENT. 101
Degree
Doctor
Appears in Collections:
기술경영전문대학원 > 기술경영학과
Authorize & License
  • Authorize공개
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.