PUKYONG

교통사고 비정형 데이터 분석과 LSTM을 이용한 예측 모델 개발

Metadata Downloads
Abstract
Abstract

There are many lives lost due traffic accidents, and which have not decreased despite advances in technology. In order to prevent traffic accidents, it is necessary to accurately forecast how they will change in the future.
Recently, the era of big data has arrived with the 4th industrial revolution. Traffic accident data is also big data, playing a big role in establishing policy tasks for traffic safety, and it is expected that more big data will be generated and processed and analyzed to contribute to traffic accident prevention in the future. In this paper, the process of generating big data from the occurrence of traffic accidents and the traffic accident data as big data currently being analyzed are divided into unstructured data and structured data to devise information utilization plans.
First, as unstructured data, 199,996 traffic accident-related reports collected from 2007 to 2012 by Busan Traffic Broadcasting Station were obtained, and the main key-words related to traffic accidents were derived and analyzed using text mining techniques.
Second, as a structured data, the NPA conducted a total survey of 1,549,151 traffic accidents that received and processed nationwide for 6 years from 2014 to 2020. In addition, a model that forecast the frequency of traffic accidents by age and time, which is time-series data, was developed using LSTM among deep-learning algorithms.
By converting traffic accident structured data into time series data, we predicted how traffic accidents will change in the future using the AI ​​algorithm LSTM. As a result of the prediction, the age group increases by one year each year, and the frequency of traffic accidents among drivers born between 1960 and 1963 is the highest, and a similar trend is shown for all age groups. However, it was predicted that the 19-year-old who is driving for the first time has a high frequency of traffic accidents. In the analysis by time period, it was predicted that it appeared higher in the time of work than in the time of work, and gradually decreased after 19:00.
However, in the course of research, even in situations where movement and economic activity ceases due to the COVID-19 outbreak worldwide, the difference between the predicted value of LSTM in 2020 and the actual value is 6.0%, similar to the decrease in road traffic, but by age group and time period. As a prediction, it was proved that traffic accidents occurred with a certain pattern.
Based on these research results, it is expected that more research resulSecond, as a structured data, the NPA conducted a total survey of 1,549,151 traffic accidents that received and processed nationwide for 6 years from 2014 to 2020. In addition, a model that forecast the frequency of traffic accidents by age and time, which is time-series data, was developed using LSTM among deep-learning algorithms.
By converting traffic accident structured data into time series data, we predicted how traffic accidents will change in the future using the AI ​​algorithm LSTM. As a result of the prediction, the age group increases by one year each year, and the frequency of traffic accidents among drivers born between 1960 and 1963 is the highest, and a similar trend is shown for all age groups. However, it was predicted that the 19-year-old who is driving for the first time has a high frequency of traffic accidents. In the analysis by time period, it was predicted that it appeared higher in the time of work than in the time of work, and gradually decreased after 19:00.
However, in the course of research, even in situations where movement and economic activity ceases due to the COVID-19 outbreak worldwide, the difference between the predicted value of LSTM in 2020 and the actual value is 6.0%, similar to the decrease in road traffic, but by age group and time period. As a prediction, it was proved that traffic accidents occurred with a certain pattern.
Based on these research results, it is expected that more research results will be derived if the traffic accident big data of structured data and unstructured data are combined.
요 약

교통사고로 인한 많은 인명피해가 발생하고 있으나, 첨단 기술의 발전에도 불구하고 교통사고 발생은 줄어들지 않고 있다. 교통사고를 사전에 예방하기 위해서는 향후 사고가 어떻게 변화하여 갈 것인지를 정확하게 예측할 필요가 있다.
최근에는 4차 산업혁명으로 빅데이터의 시대가 도래되었다. 교통사고 자료도 빅데이터로서 교통안전을 위한 정책과제 수립에 큰 역할을 담당하고 있으며, 앞으로도 더 많은 빅데이터가 생성되고 가공 분석되어 교통사고 예방에 기여를 할 것으로 기대된다. 본 논문에서는 교통사고 발생부터 빅데이터의 생성과정과 현재 분석되는 빅데이터로서의 교통사고 자료를 비정형데이터와 정형데이터로 구분하여 정보 활용방안을 강구하였다.
먼저 비정형데이터로서 교통사고 자료은 TBN 부산교통방송국에서 2007년부터 2012년까지 6년간 수집된 199,996건의 교통사고 관련 제보를 확보하여, 텍스트 마이닝(Text Mining) 기법으로 분석하고 교통사고와 연관된 단어들을 추출하고 사용 빈도가 높은 단어들을 이용하여 각각의 제보단어들의 특성을 파악하고자 하였다.
그리고 정형데이터로서 경찰청에서 2014년부터 2020년까지 7년간 전국에서 접수, 처리되어 수집되는 교통사고 자료 1,549,151건을 도로교통공단 TAAS시스템을 통해 필요한 자료를 추출하고 데이터 마이닝(Data Mining)기법으로 분석하고 전통적 회귀모형에서 다루지 못했던 교통사고와 연령대별, 시간대별 분포와의 상관관계를 분석하기 위하여 딥러닝 알고리즘 중 시계열 자료를 분석하는데 최적의 모형인 LSTM 교통사고 예측모델을 구축하였다.
교통사고 관련 제보는 비정형데이터로서 교통사고를 유발한 가해자나 피해자의 관점이 아닌, 교통사고 발생 지점과 구간, 시간대에 있었던 타 운전자의 관점에서 생성된 교통정보를 시각화하고 해석하여, 기존의 정형 데이터에서 분석하지 못한 정보를 도출할 수 있었다. 이러한 분석으로 교통제보의 트랜드를 파악하고, 운전자가 제보하는"도로명","지점명","시간대"를 추출하였으며, 교통사고 발생으로 다른 운전자에게 가장 많은 영향을 미치는 지점과 구간의 파악이 가능하였다. 향후 실제 교통사고 데이터와 결합하여 교통제보와의 상관성 분석 등을 통해 비정형 데이터의 활용방안을 모색할 계획이다.
교통사고 정형데이터를 시계열 데이터로 변환하여 AI 알고리즘 LSTM을 이용하여 향후 교통사고가 어떻게 변화하여 갈 것인지를 예측하였다. 예측결과 연령대는 매년 1년씩 증가하며 1960~1963년에 태어난 운전자의 교통사고 발생 빈도수가 가장 높게 나타나며, 모든 연령대에서 비슷한 추세를 나타나고 있다. 다만, 운전을 처음 하는 19세는 고정적으로 교통사고 발생 빈도수가 높은 것으로 예측되었다. 시간대별 분석에서도 출근시간대보다는 퇴근시간대에 높게 나타나고 19시 이후에는 점차 줄어드는 것으로 예측하였다.
하지만, 연구과정에서 전 세계적으로 코로나-19사태로 사람의 이동과 경제활동이 멈추는 상황에서도 2020년 LSTM 예측값과 실제값과의 차이는 6.0%로 도로교통량 감소와 비슷하게 나타나고 있으나, 연령대별, 시간대별 예측으로 일정한 패턴을 가지고 교통사고가 발생하고 있음을 증명하였다.
향후 이러한 교통사고 발생 추세를 감안하여 특정 연령대의 교통안전예방 활동, 초보운전자의 사고 예방을 위하여 학교 교육에서 교통안전교육 의무화 등 교통안전정책에 변화가 있어야 될 것이다. 이러한 연구 결과를 바탕으로 정형데이터와 비정형데이터의 교통사고 빅데이터를 결합한다면 더 많은 연구 성과가 도출될 것으로 기대한다.
Author(s)
노유진
Issued Date
2021
Awarded Date
2021. 8
Type
Dissertation
Keyword
교통사고 LSTM 비정형 데이터 COVID-19
Publisher
부경대학교
URI
https://repository.pknu.ac.kr:8443/handle/2021.oak/1164
http://pknu.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=200000505038
Alternative Author(s)
ROH YOUJIN
Affiliation
부경대학교 대학원
Department
대학원 지구환경시스템과학부공간정보시스템공학전공
Advisor
배상훈
Table Of Contents
I. 서 론 1
1. 연구의 배경 및 목적 1
2. 연구의 내용 및 범위 4
Ⅱ. 관련 이론 및 연구 고찰 6
1. 교통사고 원인과 요인 6
2. 교통사고 관련 자료 수집 10
3. 교통사고 관련 자료 분석 24
4. 교통사고 관련 이론 고찰 36
5. 기존 연구 문헌 고찰 58
Ⅲ. 교통사고 비정형 데이터 분석 67
1. 비정형 데이터 전처리 67
2. 텍스트 마이닝 수행절차 69
3. 교통사고 비정형 데이터 분석 71
4. 소결론 77
Ⅳ. 교통사고 정형 데이터 예측 모델 개발 79
1. 정형 데이터 전처리 79
2. 데이터 마이닝 수행절차 83
3. LSTM 관련 이론 고찰 85
4. 모델링 및 학습 91
5. 교통사고 정형데이터 예측 모델 97
6. 예측 모델의 검증 101
7. 소결론 104
Ⅴ. 결론 106
참고문헌 109
영문초록 116
부록 118
Degree
Doctor
Appears in Collections:
대학원 > 지구환경시스템과학부-공간정보시스템공학전공
Authorize & License
  • Authorize공개
Files in This Item:

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.