AI-In-The-Loop for NER tagging: 대용량 언어모델과 Few-Shot 학습을 이용한 개체명 인식 데이터셋 구축 프로세스
- Abstract
- 이 연구는 대규모 언어 모델을 활용한 새로운 개체명 인식 (Named Entity Recognition) 라벨링 프로세스를 제안하며, 이를 통한 불완전한 데이터셋 보정과 라벨링 향상의 가능성을 증명한다. 훈련 데이터셋에서 정답이 오직 10%만이 존재하는 상황에도 불구하고, 본 프로세스를 통해 데이터셋을 능동적으로 태깅하고 보정하는 것이 가능함을 밝힌다.
더불어, 본 연구는 능동학습 및 모델 커뮤니티 기반 태깅의 통합 가능성에 대한 중요한 통찰을 제시한다. 이를 통해, 대규모 언어 모델의 개체명 인식에 대한 관점을 제안하며, 비용 효율적인 방식으로 라벨되지 않은 데이터를 올바르게 태깅하고, 그에 따른 모델의 데이터 이해도를 향상시킬 수 있는 전략을 제시한다. 더욱이, 이 방법은 데이터 라벨링 비용의 최소화와 불충분한 데이터에서도 모델 성능을 일정 수준 유지하는데 중요한 역할을 수행함을 입증한다. 본 논문은 이러한 통찰과 증명을 바탕으로, 대규모 언어 모델의 효과적인 활용과 라벨링 작업의 향상을 위한 실질적인 방안을 제시하는데 초점을 맞추고 있다.|This study proposes a novel Named Entity Recognition labelling process using large-scale language models, and demonstrates its potential to compensate for incomplete datasets and improve labelling. We show that the process can be used to proactively label and calibrate datasets, despite the fact that only 10% of the responses in the training dataset are correct.
Furthermore, this work provides important insights into the feasibility of integrating active learning and model community-based tagging. In doing so, we propose a perspective on entity name recognition in large-scale language models and suggest strategies for correctly tagging unlabelled data in a cost-effective manner, thereby improving the model's understanding of the data. Furthermore, we show that our method plays an important role in minimising the cost of data labelling and maintaining a certain level of model performance even with insufficient data. Based on these findings and proofs, the focus of this thesis is to provide practical suggestions for the effective use of large-scale language models and the improvement of labelling tasks.
- Author(s)
- 박은빈
- Issued Date
- 2023
- Awarded Date
- 2023-08
- Type
- Dissertation
- Publisher
- 부경대학교
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/33482
http://pknu.dcollection.net/common/orgView/200000696566
- Affiliation
- 부경대학교 대학원
- Department
- 산업 및 데이터공학과(산업데이터공학융합전공)
- Advisor
- 최성철
- Table Of Contents
- Ⅰ. 서론 1
1. 연구 배경 1
2. 연구 목표 및 내용 3
Ⅱ. 선행 연구 4
1. Named Entity Recognition Annotation Process 4
2. LLM Annotations NLP Datasets 5
Ⅲ. 데이터셋 태깅 프로세스 7
1. 연구 방법 소개 7
2. 데이터 설명 8
2.1 CoNLL 2003 8
2.2 Broad Twitter Corpus 9
2.3 WNUT 2017 9
2.4 WikiAnn 9
3. Effective Prompt Engineering and Entity Annotation 10
3.1 Generative Pre-trained Transformer 10
3.2 Prompt Message 12
3.3 Task Description 13
3.4 Few-Shot Description 13
3.5 Entity Annotation in Context with Large Language Models 15
4. Training Details 16
4.1 Using Match Rate for Evaluation Consistency among Models 18
4.2 AI-In-The-Loop 19
4.3 반복 19
Ⅳ. 실험결과 21
1. Performance F1 Score 21
1.1 Fine-tuning with Original Dataset 21
1.2 Active Learning with Large-scale Language Model 21
1.3 CoNLL2003 Entities 23
2. Labelling Cost Comparison 24
V. 결론 26
VI. 부록 28
참고문헌 34
- Degree
- Master
-
Appears in Collections:
- 대학원 > 산업및데이터공학과
- Authorize & License
-
- Authorize공개
- Embargo2023-08-07
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.