스쿱과 타조의 효율적인 데이터 처리 성능에 관한 연구
- Abstract
- 빅데이터 처리 플랫폼인 하둡의 등장 이후 하둡 기반 기술들을 이용하여 데이터 분석을 할 수 있는 SQL-on-Hadoop 기술이 주목받고 있다. 하둡 관련 기술의 등장으로 DW시장의 변화가 포착되고 있지만 그 성능에 관한 연구는 미미한 실정이다. 그래서 본 연구에서는 하둡 기반 기술을 이용하여 관계형 데이터베이스와의 데이터 분석성능 비교에 관한 실험을 진행하여 하둡 기반 DW 솔루션들에 대한 선택에 도움이 될 연구를 수행하였다. 분석의 과정의 선행 절차로 데이터를 확보하기 위한 데이터 적재 과정을 포함하여 하둡 기반 기술 중 가장 많이 사용하는 적재 도구인 스쿱(SQOOP)을 이용하여 적재 성능을 비교하였고, 국내 개발자가 주축이 되어 개발하고 2014년 4월 아파치 최상위 프로젝트로 선정되어 국내외에서 많은 관심을 받고 있는SQL-on-Hadoop 기술인 타조(TAJO)를 이용하여 관계형 데이터베이스와의 데이터 분석성능 비교에 관한 실험을 진행하였다. 적절하지 못한 환경 구성을 통해 하둡기반 기술을 사용한다면 적재와 분석 모두 관계형 데이터베이스에 비해 좋은 성능을 얻을 수 없었으나 스쿱과 타조를 성능에 영향을 미치는 여러 요소들에 대해 올바른 사용전략을 세워 활용한다면 관계형 데이터베이스보다 우수한 성능을 보인다는 결과를 얻었다. 또한, 오픈 소스인 하둡 기술들은 개발자들의 많은 참여로 인해 점차 기술의 완성도가 높아져 DW 및 데이터 분석분야에서 중요한 축을 담당할 수 있을 것으로 예상한다.
Since introduction of Hadoop, big data processing platform, the SQL-on-Hadoop technology available for data analysis using Hadoop-based technologies has attracted attention. With the advent of Hadoop-related technologies, changes of DW market are being captured but there are few studies on their functions and performances. In this study, using Hadoop-based technologies, an experience about comparison of data analysis performance with relational database was conducted for helping to select Hadoop-based DW solutions. For pre-analysis process, using SQOOP, the most used loading instrument of Hadoop-based technologies including data loading process for securing it, loading performances were compared. And using TAJO, SQL-on-Hadoop technology, which was developed mainly by Korean developers and chosen as the highest project of Apache in April 2014, getting attention from overseas and domestic parties, an experiment about comparison of data analysis performances with relational database was also done. If using Hadoop-based technology through configuring improper circumstance, both loading and analyzing performances were not better than relational database. However, after figuring out experimentally several factors affecting performances of SQOOP and TAJO, the improved experiment showed the results that it has better performance than that of relational database. Also, level of open-source Hadoop technologies has been improved by participation of various developers and it is expected that they will contribute significantly to DW and data analysis.
- Author(s)
- 고정현
- Issued Date
- 2015
- Awarded Date
- 2015. 2
- Type
- Dissertation
- Publisher
- 부경대학교
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/12100
http://pknu.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000001967719
- Affiliation
- 부경대학교 컴퓨터공학과
- Department
- 대학원 컴퓨터공학과
- Advisor
- 여정모
- Table Of Contents
- I. 서론 1
II. 관련연구 4
1. 하둡 4
1.1 하둡 분산 파일 시스템 5
1.2 맵 리듀스 6
1.3 하둡 복제 정책 8
2. 하둡 관련 기술 10
2.1 스쿱 10
2.2 SQL-on-Hadoop 12
2.3 타조 15
3. 벤치마크 17
III. 스쿱과 타조의 효율적인 데이터 처리 성능 19
1. RDBMS대비 스쿱과 타조의 데이터 처리 성능 22
1.1 스쿱의 데이터 처리 성능 22
1.2 타조의 데이터 처리 성능 26
2. 효율적인 데이터 처리를 위한 스쿱과 타조의 영향요소 29
2.1. 스쿱의 영향 요소 29
2.2. 타조의 영향 요소 37
2.3. 하둡 복제 정책 39
IV. 스쿱과 타조의 데이터 처리 성능 실험 결과 43
1. 스쿱의 데이터 처리 성능 실험 결과 43
2. 타조의 데이터 처리 성능 실험 결과 45
V. 결론 49
참고문헌 51
- Degree
- Master
-
Appears in Collections:
- 대학원 > 컴퓨터공학과
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.