음성신호의 피치주기 검출을 위한 변형된 AMDF에 관한 연구
- Alternative Title
- A Study on Modified AMDF for Pitch Period Detection of Speech Signal
- Abstract
- 인간의 음성은 사고의 결과 및 감정 등을 포함한 다양한 정보를 가지고 있으며 의사전달을 위한 가장 기본적인 수단으로 사용되어 왔을 뿐만 아니라, 최근 인터넷과 휴대폰을 비롯한 멀티미디어 기술의 발전으로 인해 그 활용가치가 높아졌다. 따라서 현재 음성신호처리를 위한 여러 이론적 연구 뿐만 아니라 휴먼인터페이스시스템 개발이 활발히 진행되고 있으며, 이러한 성과가 현재와 미래에서의 인간의 생활에 지대한 영향을 미쳐, 보다 편리한 생활을 영위할 것이라는 예측은 지극히 당연하다.
그리고 음성신호의 기본 주파수를 의미하는 피치주기는 음성 인식, 화자 식별, 음성 합성 등과 같은 여러 음성신호처리 분야에서의 응용을 위해 필수적이고 기본적인 요소로 인식된다. 피치주기는 화자의 특성분석에 유용하게 이용되는 파라미터이며, 피치주기의 변화는 인간의 청각에 민감하게 반응하므로 인위적인 변환에 의해 다양한 음색을 만드는 것이 가능하다. 또한, 피치주기의 정확한 획득은 화자의 상태와는 상관없이 음성신호로부터 유용한 정보의 추출을 가능하게 하며, 특히 음성 합성과 음성 코딩에서 피치주기의 정확한 검출과 복원은 음질에 결정적인 역할을 한다. 따라서 음성신호의 피치주기 검출을 위한 시간영역과 주파수영역에서의 많은 알고리즘이 제안되었다.
시간영역의 피치주기 검출알고리즘은 음성신호에 대한 파형의 주기성을 강조하는 방법이 주로 이용되며, ACF(autocorrelation function), AMDF (average magnitude difference function) 등이 있다. 시간영역에서의 알고리즘은 음성신호를 분석하기 위한 시간영역에서 주파수영역으로의 변환이 불필요하며, 합과 차, 그리고 비교논리 등과 같은 비교적 간단한 연산을 사용함으로써 처리속도 측면에서 우수한 특성을 가진다. 그러나 잡음이 중첩된 음성이나 분석을 위한 프레임 내의 음소가 급격한 레벨변화를 일으킬 경우, 피치주기 검출을 위한 알고리즘이 복잡해지는 단점이 발생한다.
주파수영역에서 피치주기를 검출하기 위한 알고리즘은 획득된 음성 스펙트럼의 고조파 간격을 이용하여 기본주파수를 측정하는 방법이 사용되며, 대표적으로 Cepstrum법, 고조파분석법 등이 있다. 이러한 알고리즘은 주파수대역별로 신호의 분리가 가능하므로 음소의 천이와 변동 그리고 소음과 같은 배경잡음에 대하여 그 영향을 적게 받는다. 그러나 처리과정에서 주파수영역으로의 변환과정이 필요하기 때문에 상대적으로 복잡한 연산이 요구되며, 기본주파수의 정밀한 측정을 위한 FFT(fast fourier transform) 포인트 수를 증가시킬 경우 처리시간이 길어지고 변화특성이 둔화된다.
이에 따라, 실시간 시스템에서는 처리속도가 빠른 시간영역 알고리즘이 많이 응용되어 사용된다. 특히, 적은 연산량과 정확한 피치주기 검출이 가능한 AMDF가 널리 적용되지만, 국부 최소 계곡점(local minimum valley point)들 간의 크기차가 크지 않음으로써, 피치주기 검출에 사용되는 최초 국부 최소 계곡점 검출을 위한 추가의 알고리즘이 필요하며, 최적의 검출조건을 위한 여러 임계값의 설정이 용이하지 않다..
따라서, 본 논문에서는 basic-AMDF의 감소특성을 분석하여 적응적인 회전변환을 이용하는 변형된 AMDF를 제안하였으며, 유성음의 반복주기가 명확히 나타나지 않는 시작구간과 같은 비정상구간의 검출오류를 감소시키기 위해, 임계값을 설정하여 정상구간을 판단함으로써 정확한 피치주기 검출이 가능하도록 하였다. 또한 음성신호가 처리되는 실제 환경에서는 소음과 같은 잡음으로부터 자유로울 수 없으므로, 지하철 등을 비롯한 다양한 실제 소음 및 여러 값들로 설정한 SNR(signal-to-noise ratio)에 따라 발생된 AWGN(additive white gaussian noise)을 정현파 신호에 중첩시켜 테스트를 위한 신호로 사용하였다. 최종적으로 시뮬레이션 결과를 통해 기존의 여러 방법들과 비교하여 본 논문에서 제안한 방법의 우수성을 입증하였다.
As a lot of researches on the speech signal processing are performed due to the recent rapid development of the information-communication technology, pitch period which means the fundamental frequency of the speech signal is recognized as an essential and fundamental element for applications in various speech signal processing fields such as speech recognition, speaker identification, and speech synthesis, etc. Since it is very sensitive to the responses of human auditory sense, it can be used in creating diverse timbre through artificial transformation and pitch period serves as a useful parameter in analyzing the characteristics of a speaker. Also the accurate acquisition of the pitch period allows to easily extract useful information from the speech signals regardless of the speaker conditions, and in particular the accurate extraction and reconstruction of pitch period during speech synthesis and speech coding play decisive roles on the sound quality. Therefore, many algorithms in time domain and frequency domain for the pitch period detection of the speech signal were proposed. In particular, though AMDF(average magnitude difference function) that can detect accurate pitch period with small amount of operations is generally being used. But if the differences between local minimum valley points are not large, it would be needed an additional algorithm for the detection of pitch period and the first local minimum valley point, the establishment of several thresholds for optimal detection conditions is not easy.
So in this paper, it is proposed modified-AMDF signifying adaptable rotation transformation by analyzing the decreasing characteristics of basic-AMDF within the frame, and in order to remove the detection errors of abnormal portion where repetition periods of voiced sound are not clear, we made it possible to detect accurate pitch period by setting up thresholds and determining normal portion. Also, since the speech signals can not remain free from the noises in a real environment where they are processed, in order to simulate the proposed method, AWGN(additive white gaussian noise) generated according to arbitrarily configured SNR(signal-to-noise ratio) and diverse actual noises in subway etc were superposed onto origin signal, and they were used as signals for test.
Lastly, simulation results proved the excellence of the proposed method in this paper by comparing it with other various existing methods.
- Author(s)
- 서현수
- Issued Date
- 2007
- Awarded Date
- 2007. 2
- Type
- Dissertation
- Keyword
- 피치주기 음성신호 AMDF Modified AMDF Speech Signal
- Publisher
- 부경대학교 대학원
- URI
- https://repository.pknu.ac.kr:8443/handle/2021.oak/3620
http://pknu.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000001953533
- Alternative Author(s)
- Seo, Hyun-Soo
- Affiliation
- 부경대학교 대학원
- Department
- 대학원 제어계측공학과
- Advisor
- 김남호
- Table Of Contents
- 제1장 서론 = 1
제2장 음성신호 분석 = 3
2.1 음성의 조음기관 = 3
2.2 음성의 분류 = 5
2.3 유ㆍ무성음의 구분 = 6
2.4 피치주기 = 8
2.5 음성 발생 모델 = 9
2.6 음성신호의 스펙트로그램 = 10
제3장 AMDF 알고리즘 = 12
3.1 Basic-AMDF = 12
3.2 기존의 AMDF = 13
3.3 추가의 알고리즘 = 16
제4장 변형된 AMDF = 18
제5장 시뮬레이션 및 결과 = 23
5.1 최적의 α와 β설정을 위한 시뮬레이션 및 결과 = 23
5.2 AWGN이 중첩된 정현파 신호에 대한 시뮬레이션 및 결과 = 28
5.3 무소음 환경에서의 음성에 대한 시뮬레이션 및 결과 = 31
5.4 소음환경에서의 음성에 대한 시뮬레이션 및 결과 = 36
제6장 결론 = 39
참고문헌 = 40
- Degree
- Master
-
Appears in Collections:
- 산업대학원 > 제어계측공학과
- Authorize & License
-
- Files in This Item:
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.