Object Detection and Recognition for Multiple Packing Items Using a Deep Learning YOLO Algorithm
- Alternative Title
- 딥러닝 YOLO 알고리즘을 이용한 복수 포장 품목에 대한 목표물 탐지 및 인식
- Abstract
- For few decades, artificial intelligence is one of super-exciting fields in study and research. Artificial intelligence has been described as the ‘fourth industrial revolution’. The fourth industrial revolution improves the quality of life for populations around the world.
After the fourth industrial revolution, the large benefit in industrial robot development is full automation that reduces labor costs, replaces man’s works in dangerous environments and increases efficiency in repetitive tasks. Especially, for the last few decades, the automation have been applied in the field of online shopping and warehouse. In the field of online shopping and warehouse, identifying and handling products are the big challenge. In addition, there are the various products in different size and shape at online shopping and warehouse. Moreover, the products have various packing forms such as unpacked forms, box packaging forms, vinyl packing forms, plastic packing forms, etc. Therefore, a new algorithm for taking the good accuracy and reducing time in detection and recognition of objects under these cluttered conditions is needed.
This thesis presents an object detection and recognition for multiple packing items using a deep learning YOLO algorithm. Two methods for multiple packing object detection and recognition in this thesis are proposed: an offline method for single and multiple packing object detection and recognition, and a real-time method for single and multiple packing object detection and recognition. To do these tasks, the followings are done.
Firstly, the problem statements for object detection and recognition of multiple packing items are presented.
Secondly, a You Only Look Once (YOLO) algorithm is proposed for object detection and recognition of multiple packing items.
Thirdly, the hardware structures used for the object detection and recognition of multiple packing items using the proposed deep learning YOLO algorithm are presented as follows: an offline system for object detection and recognition and a real-time system for multiple object detection and recognition. The hardwares are developed with mechanical and electrical parts such as personal computer (PC), monitor screen, LED lamp, HD Cannon camera, ZED stereo camera, frame, fixed plywood panel, NVIDIA GPU, plastic crate containing objects, etc. An offline system for object detection and recognition uses the Cannon HD camera, and a real-time system for multiple object detection and recognition uses the ZED stereo camera.
Fourthly, an offline method for the object detection and recognition for multiple packing items using the proposed deep learning YOLO algorithm is proposed. The image processing method is built in the Python programming language. The video records are acquired by using high density (HD) Cannon camera to acquire digital profile video. After completing the video records, the video records are separated into images and then image dataset called the Cimec dataset are collected. The various packing objects are defined depending on various packing object such as unpacked objects, box packing objects, vinyl packing objects and plastic packing objects, etc. Therefore, in each packing object, a big dataset is collected for training images. The captured images in the proposed deep learning YOLO algorithm to achieve object detection and recognition are detected from various packing objects in Lotte mall. After that, the Python programming language creates an interface to label and mark the various packing objects in different locations manually. After labeling, this dataset are used in CNN for training the dataset. Python programming language trains the image dataset and constructs a detection model for testing the dataset using with NVIDIA GPU.
Fifthly, a real-time object detection and recognition for multiple packing items using the proposed deep learning YOLO algorithm is proposed. It is shown that the proposed deep learning YOLO algorithm method using image processing methods is valid by showing the difference between experimental results using an offline method and a real-time object detection method. The main problems of an image captured by the video camera result in excessive information, complex disparities, and the change of the shape and appearance of an object due to lighting conditions. To execute these tasks, a ZED stereo camera is used. The real-time object detection and recognition method on clutter environment is developed by using library available in open source deep learning YOLO algorithm (Python). For the real-time object detection and recognition, Python code is combined with Compute Unified Device Architecture (CUDA). The real-time object detection and recognition uses the pre-trained dataset.
Finally, experimental results are shown to verify the performance of the proposed methods. The experimental results of parameters such as detection time, class probility and coordinates of the predicted bounding box for offline and real-time packing object detection of single and multiple packing objects with different locations on clutter environment based on the proposed YOLO algorithm using ZED stereo camera are shown to verify the proposed object detection and recognition. The evaluated results of parameters such as average loss (AVG LOSS), total loss and learning rate vs number of iterations for offline real-time single packing objects and multiple packing objects with different locations on cluttered environment based on the proposed YOLO algorithm using ZED stereo camera are shown to evaluate the proposed packing object detection. Moreover, the experimental results of parameter such as detection time, class probility and coordinates of the predicted bounding box for offline and real-time packing object detection of single and multiple packing objects with different locations on cluttered environment based on the proposed YOLO algorithm using ZED stereo camera are shown to evaluate the proposed packing object detection and recognition.
Keywords: Image Processing, Computer Vision, Machine Learning, Object Recognition, Object Classification, Convolution Neural Networks(CNN), Python, You Only Look Once(YOLO)
수십년동안, 인공지능은 극도로 호기심을 자극하는 연구 및 학문분야들 중에 하나이디. 인공지능은 ‘4차산업혁명’으로 묘사되어 왔다. 4차산업혁명은 전세계의 인구를 위해 삶의 질을 개선한다,
4차산업혁명후, 산업로봇개발에 있어서의 큰 혜택은 노동비절감, 위험한 환경에서의 인간의 작업 대체, 반복된 작업들에서의 효율증가를 위한 완전한 자동화이다.
특히 최근 수십년동안, 자동화는 온라인쇼핑과 웨어하우스의 분야에서 사용되어 왔지만 생산품들을 확인하고 다루는 것은 큰 도전이다, 더불어, 온라인 쇼핑과 웨어하우스에서 크기와 모양이 다른 다양한 상품들이 있다. 더구나, 상품들은 비포장형태, 박스포장형태, 비닐포장형태, 플라스틱포장형태 등 다양한 포장형태를 가지고 있다.
그러므로 비정렬된 환경에 있는 대상물들의 탐지와 인식에 있어서의 고정확도 및 시간절감을 위한 새로운 알고리즘이 필요된다.
본 연구는 딥러닝 YOLO알고리즘을 사용한 다중포장대상물을 위한 탐지와 인식을 제시한다. 본 연구에서의 다중포장대상물 탐지와 인식을 위한 2가지방법들이 제시된다: 단일 및 다중포장 탐지와 인식을 위한 단일 및 다중포장대상물을 위한 오프라인법과 실시간법. 이러한 작업들을 위해 다음과 같이 수행된다. 첫째, 다중포장대상물들의 탐지와 인식방법들에 대한 문제들을 제시한다. 둘째, 다중포장대상물들의 탐지와 인식을 위해 YOLO알고리즘이 제시된다. 셋째, 제시된 딥러닝 YOLO알고리즘을 사용한 다중대상물 탐지 및 인식용 하드웨어 구조들이 다음과 같이 제시된다: 다중대상물 탐지와 인식용 오프라인시스템과 실시간시스템. 하드웨어는 개인용 컴퓨터(PC), 모니터, LED램프, HD 캐논 카메라, ZED스테레오카메라, 프레임, 고정합판판넬, NVIDIA GPU, 대상물을 담는 플라스틱 크레이트상자 등과 같은 기구 및 전기부품으로 개발된다. 대상물 탐지및 인식용 오프라인시스템은 캐논카메라를, 실시간시스템은 ZED스테레오카메라를 사용한다. 넷째, 비정렬된 환경에 있는 다중포장대상물들의 탐지와 인식용 오프라인시스템이 제안된다. 영상처리법은 Python 프로그램언어로 작성된다. 비디오기록물들이 디지털 프로파일 비디오를 얻기 위해 캐논 고밀도 HD카메라를 사용하여 얻어진다. 비디오 기록물들을 완성한 후, 그 비디오기록물들이 영상들로 분리되고 나서 Cimec 데이터세트라는 영상 데이터세트들을 모은다. 다양한 포장대상물들은 비포장, 상자포장, 비닐포장, 플라스틱포장 등과 같은 다양한 포장형태들에 따라 정의된다.
그러므로 각 포장대상물에 있어서, 영상들을 훈련시키기 위해 용량이 큰 데이터세트들을 모은다. 대상물 탐지와 인식을 얻기 위해 제시된 딥러닝 YOLO알고리즘에서 얻어진 영상들이 롯데몰의 다양한 포장대상물들로부터 탐지된다. 그리고 나서, Python프로그램 언어는 다른 위치들 다양한 포장대상물들을 수동적으로 라벨과 마크를 하기 위한 인터페이스들을 만든다. Python 프로그램 언어는 영상데이터세트들을 훈련시키고 NVIDIA GPU로 데이터로 데이트세트를 시험하기 위한 어떤 탐지모델을 구성한다. 다섯째, 비정렬된 환경에 있는 다중대상물 탐지와 인식을 위한 실시간시스템이 제안된다. 영상처리법들을 사용한 제시된 딥러닝 YOLO알고리즘이 오프라인 및 실시간 대상물 탐지인식법을 사용한 실험결과들 사이의 차이를 보여줌으로써 유효하다는 것을 보여준다. 비디오 카메라로 촬영된 영상의 주된 문제점들은 과도한 정보, 복잡한 disparities와 광원 조건 들에 기인한 대상물의 모양과 외형의 변화를 낳는다. 이러한 작업들을 수행하기 위해 ZED 스테레오 카메라가 사용된다. 비정렬된 환경에 있는 실시간 다중대상물 탐지와 인식법은 딥러닝 YOLO알고리즘 (Python)에 유용한 위한 개방소스 라이브러리로 사용함으로써 개발된다. 실시간에 있어서, Python 코드는 CUDA(Compute Unified Device Architecture )와 연결된다. 실시간 다중 대상물 탐지와 인식은 미리 훈련된 데이터세트를 사용한다. 마지막으로 실험결과들은 제안된 법들의 성능들을 검증하기 위해 제시된다. ZED카메라를 사용한 제시된YOLO알고리즘에 기반을 둔 비정렬된 환경에서의 다른 위치를 갖는 단일 및 다중포장 대상물들의 오프라인과 실시간 포장대상물 탐지와 인식을 위한 탐지시간, 클래스확률, 예측바운딩박스의 좌표들과 같은 매개변수들의 실험결과들이 제시된 대상물 탐지인식법을 검증하기 위해 제시된다. 또한 ZED카메라를 사용한 제시된 YOLO알고리즘에 기반을 둔 비정렬된 환경에서의 다른 위치를 갖는 단일 및 다중포장 대상물들의 오프라인과 실시간 포장대상물 탐지와 인식을 위한 평균손실, 전체손실, 학습율(learning rate), 클래스확률, 예측바운딩박스의 좌표들과 같은 매개변수들의 평가결과들이 제시된 대상물 탐지인식법을 평가하기 위해 제시된다.
- Author(s)
- PATEL CHETAN CHUNILAL
- Issued Date
- 2020
- Awarded Date
- 2020. 2
- Type
- Dissertation
- Publisher
- 부경대학교
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/23739
http://pknu.dcollection.net/common/orgView/200000283024
- Affiliation
- Pukyong National University , Graduate School
- Department
- 대학원 기계설계공학과
- Advisor
- Sang Bong Kim
- Table Of Contents
- Chapter 1: Introduction 8
1.1 Background and Motivation 8
1.2 Problem Statements 16
1.3 Objective and Researching Method 23
1.4 Outline of Dissertation and Summary of Contributions 25
Chapter 2: YOLO Algorithm for Objects Detection and Recognition 29
2.1 YOLO 29
2.1.1 Unified Detection 31
2.2 Convolution Neural Network (CNN) in the YOLO Algorithm 34
2.2.1 CNN Model 36
2.3 Loss Function 41
Chapter 3: System Description 46
3.1 Hardware Structure for a Proposed Data Augmentation Offline System 46
3.2 Hardware Structure for a Proposed Real-Time Object Detection and Recognition Method 49
3.3 Techgnology Stack 52
Chapter 4: Methodology for Offline Object Detection and Recognition 55
4.1 Research Desigining 55
4.2 Data Collection and Manul Label Marking 56
4.3 Data Augmentation 59
4.3.1 Resizing 60
4.3.2 Random Horizontal Flipping 61
4.3.3 Random Cropping 62
4.4 Experimental Results 62
4.4.1 Experimental Parameters and Environment 63
4.4.2 Bounding Box Setting 64
4.4.3 Offline Multiple Object Recognition 65
4.5 Evaluted Results of Parameters 73
4.6 Summary 79
Chapter 5: Methodology for Real-Time Object Detection and Recognition 82
5.1 Stereo Camera 82
5.1.1 Pinhole Camera Model 82
5.1.2 Extrinsic Camera Parameters 85
5.1.3 Intrinsic Camera Parameters 86
5.1.4 Two Pinhole Camera Model 87
5.2 Camera Calibration 90
5.2.1 Calibration Intrinsic Parameter of Camera 96
5.3 Real-time Object Detection and Recognition for Various Packing Objects 97
5.3.1 Related Work 97
5.3.2 Proposed Real-time Object Detection and Recognition Method for Various Packing Objects 99
5.4 System Setup 100
5.4.1 Stero Camera Image Acquisition System 100
5.4.2 Experimental Results of Real-time Object Detection 101
5.5 Summary 105
Chapter 6: Conclusions and Future Works 107
6.1 Conclusions 107
6.2 Future Works 112
References 113
Pubilication and Conference Works 118
- Degree
- Master
-
Appears in Collections:
- 산업대학원 > 기계설계공학과
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.