PUKYONG

하둡 클러스터 환경에서 스파크를 활용한 빈발 패턴 마이닝에 관한 연구

Metadata Downloads
Alternative Title
A Study on Frequent Pattern Mining Using Spark in Hadoop Cluster Environment
Abstract
데이터 수집 및 저장 기술의 급속한 발전과 데이터 생성 및 전파(傳播)가 쉬어짐에 따라 데이터의 양이 폭발적으로 증가하는 빅데이터 현상으로 인해, 데이터 속에서 패턴을 발견하고 연관 규칙을 분석하기 위해, 멀티코어 및 GPU 연산 그리고 분산 처리와 같은 방식을 응용한 접근법이 요구되고 있다. 이러한 맥락에서, 본 연구는 빈발 패턴 마이닝의 주요 알고리즘의 특성을 고찰하고, 클러스터 컴퓨팅 환경에서 알고리즘을 적용하여 마이닝을 수행하는 데 있어서 고려될 수 있는 요인을 검토하였다. 그리고 분산된 환경에서 탐색하고자 하는 데이터에서 발생할 수 있는 패턴 중 질의(質疑) 된 요소에 대한 패턴을 위주로 탐색을 수행하고, 해당 요소와 관련된 빈발 패턴만을 빠르게 도출하는 방법을 제안하였다. 본 연구에서 제안하는 방법의 효율성 및 적합성을 검토한 후 적용 가능성을 위한 실험을 수행하기 위해, 빅데이터 처리를 위한 분산 컴퓨팅(Distributed Computing) 환경으로 Apache Hadoop, Apache Spark, Apache Zookeeper와 같은 오픈소스 프레임워크로 구성된 클러스터 시스템을 구축하고 실험을 진행하였으며, 클러스터 환경에서 제안 방법의 레코드 데이터 집계 단계까지 동작하는 것을 확인하였다. |Due to the big data phenomenon in which the amount of data explosively increases as data collection and storage technology rapidly develops and data generation and dissemination become easy, to find patterns in data and analyze related rules, Approaches that apply methods such as core and GPU operations and distributed processing are required. In this context, this study examines the characteristics of the main algorithms of frequent pattern mining and examines the factors that can be considered in performing mining by applying the corresponding algorithm in a cluster computing environment. And, among the patterns that can occur in the data to be searched in a distributed environment, the search is performed focusing on the pattern of the queried element, and a method of quickly deriving only the frequent patterns related to the element is established. To conduct experiments for applicability after reviewing the efficiency and suitability of the method proposed in this study, open source frames such as Apache Hadoop, Apache Spark, and Apache Zookeeper are used as a distributed computing environment for big data processing. A cluster system composed of work was built and an experiment was conducted, and it was confirmed that the proposed method operates up to the record data aggregation step in the cluster environment.
Author(s)
박건현
Issued Date
2023
Awarded Date
2023-08
Type
Dissertation
Keyword
association rule analysis,data mining,hadoop cluster
Publisher
부경대학교
URI
https://repository.pknu.ac.kr:8443/handle/2021.oak/33483
http://pknu.dcollection.net/common/orgView/200000696669
Alternative Author(s)
Geon Hyeon Park
Affiliation
부경대학교 대학원
Department
산업 및 데이터공학과(산업데이터공학융합전공)
Advisor
김민수
Table Of Contents
Ⅰ.서 론 1
1.1 연구의 배경 및 목적 1
1.1.1 연구의 배경 1
1.1.2 연구의 목적 3
1.2 연구의 방법 및 구성 8
1.2.1 연구의 방법 8
1.2.2 연구의 구성 9
Ⅱ. 관련 이론 및 선행연구 11
2.1 빈발 패턴 마이닝 12
2.1.1 빈발 패턴 마이닝 문제 13
2.1.2 빈발 항목집합에 관한 연관규칙 분석 16
2.1.3 기초 알고리즘 20
2.1.4 선행 연구 검토 28
2.2 Hadoop Ecosystem 30
2.2.1 Hadoop 31
2.2.2 Spark 36
2.2.3 Zookeeper 39
2.3 소결 42
Ⅲ. 제안 방법론 47
3.1 트랜잭션 데이터 수집 47
3.2 레코드 데이터 처리 51
3.2.1 레코드 데이터 집계 51
3.2.2 역 인덱스 구조 55
3.3 패턴 베이스 생성 58
3.4 빈발 패턴 탐색 66
3.5 소결 74
Ⅳ. 클러스터 컴퓨팅을 위한 시스템 구축 76
4.1 실험 환경 구성 76
4.2 클러스터 시스템 구축 79
4.2.1 Hadoop 고가용성 구성 80
4.2.2 Spark on YARN 클러스터 구성 81
4.2.3 HDFS 읽기-쓰기 프로세스 87
Ⅴ. 실험 및 결과 90
5.1 실험 데이터 90
5.2 실험 내용 92
Ⅵ. 결 론 97
6.1 연구의 요약 97
6.2 연구의 의의 및 한계 98
6.2.1 연구의 의의 98
6.2.2 연구의 한계 98
6.2.3 향후 연구 방향 98
참 고 문 헌 99
부 록 115
Degree
Master
Appears in Collections:
대학원 > 산업및데이터공학과
Authorize & License
  • Authorize공개
  • Embargo2023-08-07
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.