Development and optimization of high-throughput computational methods and their applications in analytical chemistry
- Alternative Title
- 분석화학에서의 고처리량 전산 기법의 개발과 최적화, 적용 방안
- Abstract
- 이 논문은 분석 화학 영역에서의 고처리량 전산 기법(high-throughput computational methods)의 개발과 최적화, 그 적용에 관한 종합적인 연구의 결과를 제시한다. 제3장에서는 부분최소자승법(PLS)를 이용한 chromatographic column selection systems(CSSs) 평가 방식에 대해 제시된다. Chromatographic columns 사이의 유클리드 거리를 기반으로 스칼라 치수(scalar measure)를 계산하는 CSSs는 동일한 결점을 가진다. 그 매개변수들이 다양한 가치를 가지므로, 동일하거나 유사한 가치들이 산출될 수 있다. 화학계량학적 방법(chemometric methods)의 적절한 사용은 해결책을 제공할 수 있을 뿐만 아니라 그것들의 근본적인 상관관계를 드러낼 수 있다. Katholieke Universiteit Leuven(KUL)에서 개발한 안정된 CSS의 매개변수들은 의약품에 관한 선택성 매개변수(보유시간, 해결, 피크율과 분지율)에 직접적으로 연관성이 있었다. 두 가지 사례 연구로, (1) 알푸조신(alfuzosin)과 불순물의 구분, (2) 라모트리진(lamotrigine)과 불순물의 구분이 평가되었다. 종합적인 상관관계 구조는 KUL 매개변수와 column performance 사이의 인과관계를 드러냈고, 철저하게 이해되었다. 나아가, 발달된 방법론은 어떠한 거리 기반 column selection system에도 적용될 수 있음을 보여주었다.
분석 화학 정보를 포함하는 지도 학습(supervised learning) 문제에 관한 변수 선택은 제4장에서 자세히 제시하였다. 회귀: (1) 양적 구조 유지 관계에 대한 대규모 개발(QSRR), (2) 푸리에 변환의 중적외선 스펙트럼 정보에서 나온 토양 내용의 예측, (3) 분류: 유전자 발현 정보에서 나온 종양세포 백분율 지수를 기반으로 한 전립선 암 환자의 진단과 같은 세 가지 사례 연구도 평가되었다.
첫 사례 연구에서, 다섯 가지 nature-inspired optimization algorithms, genetic algorithm(GA), particle swarm optimization(PSO), artificial bee colony algorithm(ABC), firefly algorithm(FA), flower pollination algorithm(FPA)의 성능이 여덟 가지 모형 단백질로부터 비롯되는 83가지 펩티드에 대한 QSRR 모형의 개발의 분자 설명인자(molecular descriptors) 선택과 비교되었다. 423가지 분자 설명인자를 가지는 모체는 입력으로서 사용되었고, 모형들은 부분최소자승법(PLS)의 사용에 의해 구축되었다. 평균제곱급오차의 예측(RMSEP)은 그것들의 선택을 위한 적합성 함수(fitness function)로서 이용되었다. 예측 정확도(prediction accura-cy), 연산 비용(computational cost), 선택된 분자 설명인자의 수와 같은 세 가지 성능 기준은 그 방법들을 평가하기 위해 사용되었다. 부분최소자승법과 결부된 GA가 우수했는데, 소수의 변이(9가지 분자 설명인자)에서 가장 낮은 연산 비용과 더 높은 정확도(RMSEP 5.534 %)를 보였기 때문이다. GA-QSRR 모형은 처음에 y-임의 추출법(y-randomization)을 통해서 입증되었다. 외부 실험 설계에 포함된 Bacillus subtilis 프로티옴(RMSEP 22.030 %)에서 유래하는 102가지 펩티드는 GA-QSRR에서 성공적으로 입증되었다. 그것의 적용 가능성 영역은 개발된 GA-QSRR이 강력한 견고성을 나타낸다는 것이 분명하다는 것으로 정의되었다. 그 모형 오류의 모든 근원은 식별되었고, 따라서 단백질 유전 정보학(proteomics)에서의 개발된 방법론의 추가적인 적용을 고려했다.
두 번째와 세 번째 사례 연구에서는 몇 가지 전산 방식이 적용되었다. 즉, 이는 GA, FA, PSO, least absolute shrinkage and selection operator(LASSO), least angle regression algorithm(LARS), interval PLS(iPLS), sparse PLS(sPLS)와 uninformative variable elimination-PLS(UVE-PLS)를 말한다. 게다가 양적 성능 치수(quantitative performance measures)인 오류와 정확도, 그리고 질적 성능 치수인 선발 지수(SI)는 선택된 변수들을 질적인 관점에서 그 방식을 평가하기 위해 도입되었다. 견고성은 두 가지 데이터세트에서 인위적으로 생성된 잡음 변이(noise variables)들을 도입하는 것으로 평가되었다. 첫 번째 사례의 결과는 예측 능력과 견고성이 감소하는 순으로 나타나는 것을 보여주었다. GA > FA ≈ PSO > LASSO > LARS (RMSEP: 1.775, 4.504, 4.055 mg g-1, 10.085, and 10.510 mg g-1)은 스펙트럼 정보를 포함하는 회귀에서 적용하도록 권장되었다. 두 번째 사례 연구에서, 그 다음 동향으로 GA > PSO > FA ≈ LASSO > LARS (accuracies of 100, 95.12 and 90.24 %)가 관찰되었다. GA에 대한 회귀 사례에서, 선택 지수의 가치는 감소하지 않았지만, FA와 PSO에서는 선발 지수가 각각 28.85 %에서 10.26 %, 36.11 %에서 21.05 % 감소했다. 이것은 강력한 견고성의 지표이다. 분류 사례에서는 LARS만이 잡음 변수(noise variables)의 도입에 관한 정확도에서의 상당한 감소를 나타냈다. 오류의 주요 근원들이 식별되었고, 이것들은 대부분 분석 방식 그 자체에서 유래하였다. 그것은 평가된 변수 선정 기법(variable selection methods)의 강력한 적용가능성을 보여주었다.
제5장에서는, 서포트 벡터 머신(SVR), 인공신경회로망(ANN) 그리고 커널부분최소자승법(kPLS)와 같은 세 가지 기계 학습 방법을 단백질 유전 정보학에서의 RP-LC-MS/MS 분석으로부터 나온 펩티드의 지연 시간을 예측하기 위한 양적 구조 지연 관계(QSRR) 모형의 개발을 위해 사용하였다.
펩티드의 지연 시간 예측은 단백질 유전 정보학을 기반으로 한 RP-LC-MS/MS에서 점점 인기를 얻고 있는 중이다. 이것은 유전자정보 지도를 성공적으로 개선하고, 식별과 수량화 작업 흐름을 유용하게 하기 위한 유망한 접근법이다. 이 연구에서는 8가지 특성화된 단백질과 두 가지 Bacillus subtilis 프로테움에서 기원한 185가지 펩티드의 분자구조를 직접 예측하기 위해 QSRR 모형이 개발되었다. GA는 세 가지 기계 학습 방법 즉, SVR, ANN 그리고 kPLS과 결부된 분자 설명인자의 하부집합의 선택을 위해 사용되었다. 최종적인 GA-SVR와 GA-ANN, GA-kPLS 모형은 사람의 상피 헬라 세포 프로테움에서 나온 95가지 펩티드의 외적타당도를 통해 입증되었다. 견고성과 안정성은 그것들의 적용가능성 영역을 정의하는 것으로 보장받았다. 그 개발된 모형들의 분자 설명인자들은 분자 구조와 지연 사이의 인과 관계를 확인하는 것으로 이해되었다.
제6장에서는 lactoferrin (LTF)에서의 은 이온 결합 과정이 기술되었다. 또한 LTF의 물리화학적 성질과 합성된 Ag-LTF 복합체, 그리고 그것들의 항균력을 상세히 서술하였다. 대규모의 분석 실험들이 수행되었다. 분자동력학 (MD)와 양자 역학 (QM) 모형은 Ag+-LTF 복합체를 이론적으로 특성화하고 그 실험들을 지지하기 위해 개발되었다. 그 결과, 분석 실험과 이론 모형 간의 동반 상승효과를 보였다. Lactoferrin에서의 은 이온 결합의 동역학 연구는 뱃치 수착 기법(batch sorption techniques)을 이용하는 것을 실시했었다. 분광계 (MALDI-TOF/TOF-MS, ICP-MS), 분광분석 (FTIR, SERS), 전자현미경 (TEM)과 전기영동적 (I-DE) 기술들 뿐만 아니라 제타 전위 측정은 LTF의 특성화와 Ag-LTF 복합체의 은 이온 성질 결합을 위해 적용되었다. 동역학 연구에 근거하여 LTF에서의 은 이온 결합은 두 가지 주요 단계를 포함하는 이질적 과정이있다는 것을 발견하였고, 그 두 가지는 (1) 내부 확산과 락토페린 소구체의 외부 표면으로의 흡수, (2) 내부 확산과 락토페린 소구체 구조 속으로의 결합이다. TEM 분석과 결합된 분광 분석 기술은 결합 과정을 확인해주었다. MD 분석은 결합과정의 기제를 자극하고 잠재적인 결합 부위를 규명하는 것 뿐만 아니라 실험 결과를 보완하기 위해 실시되었다. Ag+부터 Ag0까지의 환원 기제를 지지하기 위해 QM 방법인 Density functional theory (DFT)을 활용하였다. 선택된 임상 세균(selected clinical bacteria)에 대항하는 합성된 LTF 복합체의 항균력은 유동세포분석법(flow cytometry)과 향균제 감수성 양상(antibiograms)을 이용하여 확인하였다.
- Author(s)
- Žuvela, Petar
- Issued Date
- 2017
- Awarded Date
- 2017. 2
- Type
- Dissertation
- Keyword
- analytical chemistry proteomics pharmaceutical chemistry biomedical analysis chromatography chromatographic column selection
- Publisher
- 부경대학교 대학원
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/13500
http://pknu.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000002326544
- Affiliation
- 부경대학교 대학원
- Department
- 대학원 화학공학과
- Advisor
- 유준
- Table Of Contents
- CHAPTER I 1
1. INTRODUCTION 1
1.1. Research background and motivation 1
1.2. Synopsis 4
1.3. Contribution to research articles 8
1.4. Notation 10
1.5. List of symbols 10
CHAPTER II 20
2. THEORETICAL 20
2.1. Chemometrics 20
2.1.1. Exploratory data analysis 20
2.1.1.1. Principal component analysis 21
2.1.1.2. Partial least squares 25
2.1.2. Variable selection 26
2.1.2.1. Genetic algorithm 27
2.1.2.2. Particle swarm optimization 27
2.1.2.3. Artificial bee colony algorithm 28
2.1.2.4. Firefly algorithm 29
2.1.2.5. Flower pollination algorithm 30
2.1.2.6. Least absolute shrinkage and selection operator 31
2.1.2.7. Least angle regression algorithm 31
2.1.2.8. Other variable selection methods 32
2.1.3. Regression methods 33
2.1.3.1. Multiple linear regression 34
2.1.3.2. Partial least squares 34
2.1.4. Machine learning methods 36
2.1.4.1. Support vector machines 37
2.1.4.2. Artificial neural networks 39
2.1.4.3. Kernel partial least squares 41
2.1.5. Stratification algorithms 41
2.1.5.1. Kennard and Stone algorithm 42
2.1.6. Model performance metrics 43
2.1.7. Model validation 44
2.1.7.1. Internal validation 44
2.1.7.2. External validation 46
2.1.7.3. Applicability domain 46
2.1.7.4. Cross-validation-analysis of variance 47
2.2. Computational chemistry 49
2.2.1. Molecular mechanics and dynamics 49
2.2.1.1. Force fields 49
2.2.2. Quantum mechanics 51
2.2.2.1. Hartree-Fock method 52
2.2.2.2. Density functional theory 53
CHAPTER III 55
3. ASSESSMENT OF COLUMN SELECTION SYSTEMS USING PARTIAL LEAST SQUARES 55
3.1. Introduction 55
3.2. Materials and methods 59
3.2.1. KUL column selection system procedure 59
3.2.2. Analysis of alfuzosin and its impurities 60
3.2.3. Analysis of lamotrigine and its impurities 61
3.2.4. Data analysis 63
3.3. Results and Discussion 64
3.3.1. Case study 1 65
3.3.2. Case study 2 75
3.4. Conclusions 85
CHAPTER IV 87
4. VARIABLE SELECTION IN SUPERVISED LEARNING PROBLEMS INVOLVING ANALYTICAL INFORMATION 87
4.1. Introduction 87
4.2. Materials and methods 95
4.2.1. Case study 1 95
4.2.1.1. Sample preparation 95
4.2.1.2. RP-LC-MS/MS conditions 96
4.2.1.3. Protein identification 96
4.2.1.4. Model development 97
4.2.1.5. Optimization of hyper-parameters 98
4.2.2. Case study 2 101
4.2.3. Case study 3 103
4.2.4. Variable selection methods’ evaluation 104
4.2.4.1. Case study 1 104
4.2.4.2. Case studies 2 and 3 105
4.3. Results and Discussion 105
4.3.1. Case study 1 105
4.3.2. Case study 2 115
4.3.3. Case study 3 122
4.4. Conclusions 126
CHAPTER V 129
5. MACHINE LEARNING APPROACHES TO PREDICTION OF RETENTION TIME IN SHOTGUN PROTEOMICS 129
5.1. Introduction 129
5.2. Materials and methods 132
5.2.1. RP-LC-MS/MS analysis 132
5.2.1.1. Sample preparation 132
5.2.1.2. RP-LC-MS/MS conditions 133
5.2.1.3. Protein identification 134
5.2.2. Model development 135
5.2.3. Model validation 137
5.2.4. Prediction of elution order 137
5.3. Results and discussion 138
5.3.1. Optimization of hyperparameters 138
5.3.2. Interpretation of resulting models 141
5.3.3. Model validation 153
5.3.4. Prediction of elution order 156
5.4. Conclusions 158
CHAPTER VI 160
6. CHARACTERIZATION OF LACTOFERRIN-FUNCTIONALIZED SILVER NANOPARTICLES AS STRONG ANTIBIOTICS 160
6.1. Introduction 160
6.2. Materials and methods 162
6.2.1. Isolation of lactoferrin 162
6.2.2. Electrophoretic study 163
6.2.3. Isoelectric point determination 163
6.2.4. Matrix-assisted laser desorption ionization – time of flight mass spectrometry analysis 164
6.2.5. Batch sorption kinetic experiments 165
6.2.6. Sorption kinetics modeling 167
6.2.7. Determination of thermodynamic parameters 168
6.2.8. Fourier transform infrared spectroscopic analysis 169
6.2.9. Surface enhanced Raman spectroscopy analysis 169
6.2.10. Transmission electron microscopy imaging 170
6.2.11. Molecular dynamics analysis 170
6.2.12. Quantum mechanical simulation 173
6.2.13. Study of antimicrobial activity of Ag-LTF complexes 173
6.3. Results and discussion 174
6.3.1. Characteristics of lactoferrin 174
6.3.2. Spectroscopic study of the silver-binding process 183
6.3.3. Transmission electron microscopy imaging 189
6.3.4. Molecular dynamics and Quantum mechanics studies 190
6.3.5. Antibacterial activity of silver-lactoferrin nanocomplexes 199
6.4. Conclusions 206
CHAPTER VII 208
7. OVERALL CONCLUSIONS 208
SUMMARY IN KOREAN 215
REFERENCES 222
APPENDIX 271
Appendix A: Supplementary tables related to Chapter 3 271
Appendix B: Supplementary tables related to Chapter 4 283
Appendix C: Supplementary tables related to Chapter 5 293
ACKNOWLEDGMENTS 300
CURRICULUM VITAE 301
- Degree
- Doctor
-
Appears in Collections:
- 산업대학원 > 응용화학공학과
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.