Deep Learning Methods for 3D Data Classification based on Novel Descriptors
- Abstract
- 3D Data Classification is a challenging task in computer vision with various practical applications like autonomous driving, intelligent robot, and augmented/virtual reality. The researchers introduced many deep learning approaches to solve the 3D data classification task. However, these methods suffer from one of the following drawbacks: (1) having insufficiently good performance and (2) heavy-weight model.
The 3D point cloud and the 3D object are two popular types of 3D data. The first 3D data representation is a point cloud (the group of points in the 3D space). Each point has a unique value of (x, y, z) in a 3D space and other properties such as color values. The 3D triangle mesh (3D object) is the second 3D data form. This 3D mesh is created from 3D triangle facets, and each one has three vertices.
This study aims to explore different methods for 3D data classification. We propose three approaches that are based on different 3D data descriptors. Each one is designed for a specific target system depending on the hardware resources. The proposed frameworks handle the drawback of other methods and increase the accuracy of the classification task.
In the first approach, we present a novel framework, a center point (CP) and wave kernel signature (WKS) method, which provides distance and color features from a 3D object to tackle 3D shape classification. The characteristic of human vision inspires this study. Thus, we classify a 3D shape based on its size and color. Firstly, we computed eigenvalues from the 3D object, then WKS values, and finally got the color feature. Secondly, we located a center point of the 3D object to determine the distance feature. The color and distance features were input data into a 2D convolution neural network (CNN) structure. To evaluate the performance of the proposed framework, we employed two 3D model databases: ModelNet40 and ModelNet10. Our numerical results showed that the first proposed method is more efficient than other approaches. This method is designed for low hardware resource systems like Internet of Things (IoT) devices.
The second approach introduces a new framework that integrates a Global Point Signature Plus with a Deep Wide Residual Network, namely GPSP-DWRN. Global Point Signature Plus (GPSPlus) is a novel descriptor because it obtains more object information from the 3D object for a single view. Firstly, we transformed an original 3D object into a colored one using GPSPlus. Then, the 2D projection of this color 3D object is obtained and stored by a 32 × 32 × 3 matrix. This matrix was the input data of a Deep Residual Network, which employed a single CNN architecture. We evaluated the GPSP-DWRN for a classification task with two well-known databases: ModelNet40 and ModelNet10, while using the Shapnetcore55 database for a retrieval task. Based on our experimental results, our second method, designed for medium hardware resource systems like robotics, performs better than the state-of-the-art approaches.
In addition, we proposed the third novel approach for 3D point cloud classification, namely, GSN, which combines the enhancing region representation and the Gaussian Supervector descriptor. GSN extracts then combine both the regional and the global features of the 3D point cloud to get more information on the point cloud features for the classification task. Firstly, we converted the regions of the 3D point cloud into color representation and captured region features with a 2D wide-inception network. Secondly, the Gaussian Supervector descriptor was used as an input of the 3D wide-inception CNN architecture to define the global feature. These extracted features were inputs of a 1D CNN architecture. We evaluated the proposed method on the point cloud database: ModelNet (developed by Princeton University) and the LiDAR database (developed by the University of Sydney). Based on our numerical results, our third method, designed for high resource systems like autonomous driving cars, is more accurate than the state-of-the-art approaches.
3D 데이터 분류는 자율주행, 지능형 로봇, 증강/가상 현실과 같은 다양한 실제 응용 사례가 있는 컴퓨터 비전에서의 도전적인 과제이다. 연구원들은 3D 데이터 분류 작업을 해결하기 위해 많은 딥 러닝 접근 방식을 도입했다. 그러나 이러한 방법은 (1) 성능이 불충분하고 (2) 중량이 큰 모델이 있다는 단점으로 인해 어려움이 있다.
3D 포인트 클라우드와 3D 오브젝트는 널리 사용되는 두 가지 유형의 3D 데이터입니다. 첫 번째 3D 데이터 표현은 포인트 클라우드(3D 공간의 포인트 그룹)이다. 개별적 점은 3D 공간에서 (x, y, z)의 고유한 값과 색상 값과 같은 기타 특성을 갖는다. 3D 삼각형 메쉬(3D 개체)는 두 번째 3D 데이터 형식이다. 이 3D 메쉬는 3D 삼각형 면에서 생성되며 각 면에는 3개의 꼭짓점이 있다.
본 논문에서는 3D 데이터 분류를 위한 다양한 방법을 탐색하는 것을 목표로 서로 다른 3D 데이터 기술자 기반 접근 방법을 제안하였다. 각 접근 방식은 하드웨어 리소스에 따라 특정 대상 시스템에 맞게 설계되었다. 제안된 프레임워크는 다른 방법의 단점을 처리하고 분류 작업의 정확도를 높인다.
첫 번째 시나리오에서는 3D 모양 분류를 처리하기 위해 3D 개체의 거리 및 색상 기능을 제공하는 새로운 프레임워크인 CP(중심점) 및 WKS(파동 커널 서명) 방법을 제시한다. 인간 시각의 특성은 이 연구에 영감을 준다. 따라서 우리는 크기와 색상에 따라 3D 모양을 분류한다. 먼저 3D 개체에서 고유값을 계산한 다음 WKS 값을 계산하고 마지막으로 색상 특성을 얻었다. 두 번째로, 3D 물체의 중심점을 찾아 거리 특징을 결정했다. 색상 및 거리 특징은 입력 데이터였고 2D 컨볼루션 신경망(CNN) 구조에 입력되었다. 제안된 프레임워크의 성능을 평가하기 위해 ModelNet40 및 ModelNet10이라는 두 가지 3D 모델 데이터베이스를 사용했다. 우리의 수치적인 결과는 첫 번째 제안된 방법이 다른 접근 방식보다 더 효율적임을 보여주었다. 이 방법은 사물 인터넷(IoT) 장치와 같은 하드웨어 리소스가 적은 시스템을 위해 설계되었다.
두 번째 시나리오는 Global Point Signature Plus와 딥 와이드 잔류 네트워크(Deep Wide Residual Network), 즉 GPSP-DWRN을 통합하는 새로운 프레임워크를 소개한다. Global Point Signature Plus(GPSPlus)는 단일 보기에 대해 3D 개체에서 더 많은 개체 정보를 가져오기 때문에 새로운 설명자이다. 먼저, GPSPlus를 사용하여 원본 3D 개체를 컬러 개체로 변환했다. 그런 다음, 32 × 32 × 3 행렬은 이 색상의 3D 물체의 2D 투영을 유지했다. 이 매트릭스는 단일 CNN 아키텍처를 사용하는 심층 잔류 네트워크의 입력 데이터였다. 우리는 검색 작업에 Shapnetcore55 데이터베이스를 사용하는 동안 ModelNet40 및 ModelNet10이라는 두 개의 잘 알려진 데이터베이스로 분류 작업에 대해 GPSP-DWRN을 평가했다. 로봇과 같은 중간 규모의 하드웨어 리소스 시스템을 위해 설계된 두 번째 방법은 수치 결과를 기반으로 하는 최첨단 접근 방식보다 성능이 우수했다.
세 번째 시나리오에서는 3D 포인트 클라우드 분류를 위한 새로운 접근 방식으로, 향상된 영역 표현과가우스 슈퍼 벡터를 결합한 GSN을 제안한다. 그런 다음 GSN 추출은 3D 포인트 클라우드의 지역 및 전역 기능을 결합하여 분류 작업을 위한 포인트 클라우드 기능에 대한 추가 정보를 얻는다. 먼저, 3D 포인트 클라우드의 영역을 색상 표현으로 변환하고 2D 와이드 인셉션 네트워크를 사용하여 특징 영역 을 캡처했다. 둘째, 가우시안 슈퍼벡터 기술자(Gaussian Supervector descriptor)는 전역 기능을 정의하기 위해 3D 와이드-인셉션 CNN 아키텍처의 입력으로 사용되었다. 이러한 추출된 기능은 1D CNN 아키텍처의 입력이다. 우리는 포인트 클라우드 데이터베이스인 ModelNet과 LiDAR 데이터베이스인 시드니에서 제안된 방법을 평가했다. 시드니 대학교(호주 시드니)는 시드니 데이터베이스를 개발했으며 프린스턴 대학교(미국 뉴저지)는 ModelNet 데이터베이스를 개발했다. 세 번째 방법은 자율주행 자동차와 같은 고자원 시스템을 위해 설계된 실험 결과를 기반으로 하는 최첨단 접근 방식보다 높은 정확도를 얻었다.
- Author(s)
- HOANG LONG
- Issued Date
- 2022
- Awarded Date
- 2022. 8
- Type
- Dissertation
- Publisher
- 부경대학교
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/32673
http://pknu.dcollection.net/common/orgView/200000641258
- Affiliation
- Pukyong National university, Graduate School
- Department
- 대학원 인공지능융합학과
- Advisor
- Ki-Ryong Kwon
- Table Of Contents
- I. INTRODUCTION 1
1.1. Background and research motivation 1
1.2. Objective of the dissertation 5
1.3. Contributions of the dissertation 7
1.4. Dissertation organization 8
II. LITERATURE REVIEW 10
2.1. 3D data conversion 10
2.1.1. Convert 3D mesh to 3D point cloud 10
2.1.2. Convert 3D point cloud to 3D mesh 11
2.2. 3D data signatures 12
2.3. Deep learning method for 3D data classification 14
2.3.1. Volumetric-based methods 15
2.3.2. View-based methods 18
2.3.3. Raw point cloud methods 20
2.3.4. Graph-based methods 22
2.4. Deep learning method for different target systems 25
III. PROPOSED METHODS 27
3.1. 3D Object Classification Based on A Center Point and the Wave Kernel Signature 27
3.1.1. Overview 27
3.1.2. A Center Point of 3D Mesh 28
3.1.3. Wave Kernel Signature of the 3D Mesh 30
3.1.4. The proposed CNN structure 33
3.2. 3D Object Classification using the Global Point Signature Plus and Deep Wide Residual Network 39
3.2.1. Overview 39
3.2.2. Global Point Signature Plus 39
3.2.3. Deep Wide Residual Network 43
3.3. 3D Point Cloud Classification using Gaussian Supervector Network 46
3.3.1. Overview 46
3.3.2. Gaussian Supervector Representation 48
3.3.3. 3D Wide-Inception Architecture 52
3.3.4. Enhancing Region Representation 54
3.3.5. 2D Wide-Inception Architecture 58
3.3.6. Feature Fusion with 1D CNN 61
IV. EXPERIMENTAL RESULTS AND DISCUSSION 62
4.1. 3D object classification using Wave Kernel Signature - Center Point 62
4.1.1. Datasets 62
4.1.2. Performance Evaluation 63
4.2. 3D object classification using Global Point Signature Plus 70
4.2.1. Datasets 70
4.2.2. Performance Evaluation 72
4.3. 3D point cloud classification using Gaussian Supervector and region descriptor 83
4.3.1. Datasets 83
4.3.2. Performance Evaluation 84
4.4. Discussion 93
V. CONCLUSIONS 96
- Degree
- Doctor
-
Appears in Collections:
- 대학원 > 인공지능융합학과
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.