Please use this identifier to cite or link to this item: http://kb.psu.ac.th/psukb/handle/2016/13132
Title: การจำแนกพยางค์ไทยที่ใช้ในการฟื้นฟูอาการพูดไม่เป็นความ
Other Titles: Classification of Thai syllables used for dysarthria rehabilitation
Authors: พรชัย พฤกษ์ภัทรานนต์
นิดา แซ่จอง
Faculty of Engineering Electrical Engineering
คณะวิศวกรรมศาสตร์ ภาควิชาวิศวกรรมไฟฟ้า
Keywords: ระบบประมวลผลเสียงพูด;สัญญาณรบกวนทางไฟฟ้า;การรู้จำเสียงพูดอัตโนมัติ
Issue Date: 2019
Publisher: มหาวิทยาลัยสงขลานครินทร์
Abstract: This thesis presented a Thai syllables classification system used for dysarthria rehabilitation based on five channels of surface electromyography (sEMG) and a channel of acoustic signal for classifying twelve Thai syllables. The proposed syllables classification system was divided into four important parts including signal pre-processing, feature representation, dimensionally reduction and classification. Firstly, we studied the characteristic of sEMG signal between healthy and dysarthric volunteers by calculating three feature groups as amplitude, frequency and probabilistic value. Two features from each feature group were determined and analyzed. Subsequently, a spectral regression extreme learning machine (SRELM) was used as the feature projection technique to reduce the dimension of the feature vector. Finally, the projected features were classified using a feed forward neural network (NN) classifier with 5-fold cross-validation. The results showed that amplitude and frequency feature affected to the syllable recognition performance. Secondly, the individual sEMG channel and the 2, 3, 4 and 5 combination sEMG channels were evaluated using the proposed system. The results found showed that when the channel of the electrode was reduced, the syllables classification performance was decreased. Thirdly, in case of the acoustic signal, the number of Mel frequency cepstral coefficients (MFCC) as 8, 13 and 18 were investigated. Moreover, two feature groups between five time domains and MFCC were compared. The results indicated that MFCC was better than another feature group and 18 coefficients gave the best performance. Finally, the best combination of features and channels of sEMG signal was chosen to be fused with the mel-frequency cepstral coefficients extracted from the acoustic signal. Results showed that the multimodal fusion outperformed the use of a single signal source achieving up to ~97% of accuracy. In other words, an accuracy improvement up to 51% could be achieved when using the proposed multimodal fusion. Moreover, its low standard deviations in classification accuracy compared to those from the unimodal fusion indicated the improvement in the robustness of the syllable recognition.
Abstract(Thai): วิทยานิพนธ์ฉบับนี้นําเสนอระบบจําแนกพยางค์ไทยที่ใช้ในการฟื้นฟูอาการพูดไม่เป็น ความด้วยสัญญาณไฟฟ้ากล้ามเนื้อ 5 ช่องสัญญาณและสัญญาณเสียง สําหรับจําแนก 12 พยางค์ไทย ระบบจําแนกพยางค์ไทยที่นําเสนอถูกแบ่งเป็น 4 ส่วนสําคัญคือ การปรับปรุงสัญญาณก่อนการ ประมวลผล การแทนที่ลักษณะเด่น การลดมิติของข้อมูลและการจําแนกพยางค์ อันดับแรกศึกษา คุณลักษณะของสัญญาณไฟฟ้ากล้ามเนื้อระหว่างอาสาสมัครคนปกติและผู้ที่มีอาการพูดไม่เป็นความ โดยการคํานวณลักษณะเด่น 3 กลุ่มคือ ขนาด ความถี่ และค่าทางสถิติ ลักษณะเด่น 2 ค่าจากแต่ละ กลุ่มถูกกําหนดและวิเคราะห์ จากนั้น spectral regression extreme learning machine ซึ่งเป็น เทคนิคฉายลักษณะเด่นถูกใช้เพื่อลดขนาดของเวกเตอร์ลักษณะเด่น สุดท้ายลักษณะเด่นที่ผ่านการ ฉายลักษณะเด่นแล้วถูกจําแนกโดยใช้โครงข่ายประสาทเทียมแบบป้อนไปข้างหน้าร่วมกับการแบ่ง ข้อมูลออกเป็น 5 ส่วนเท่ากันเพื่อสร้างและทดสอบโมเดล (5-fold cross validation) ผลการทดลอง แสดงให้เห็นว่าลักษณะเด่นกลุ่มขนาดและความถี่ส่งผลต่อประสิทธิภาพของการจําแนกพยางค์ อันดับ สองประเมินประสิทธิภาพของระบบโดยการแยกพิจารณาช่องสัญญาณไฟฟ้ากล้ามเนื้อเดียวและการ รวมข้อมูลจาก 2 3 4 และ 5 ช่องสัญญาณไฟฟ้ากล้ามเนื้อรวมกันโดยใช้ระบบที่นําเสนอ พบว่าเมื่อลด จํานวนช่องสัญญาณ ประสิทธิภาพในการจําแนกพยางค์จะลดลง อันดับสามในกรณีของสัญญาณเสียง จํานวนสัมประสิทธิ์ของลักษณะเด่น Mel-frequency cepstral coefficient (MFCC) คือ 8 13 และ 18 ถูกตรวจสอบ นอกจากนี้ลักษณะเด่น 2 กลุ่มระหว่างลักษณะเด่นในโดเมนเวลา 5 ค่าถูก เปรียบเทียบกับ MFCC ผลการทดลองชี้ให้เห็นว่า MFCC ดีกว่าลักษณะเด่นอีกกลุ่มหนึ่งและจํานวน สัมประสิทธิ์เท่ากับ 18 ให้ประสิทธิภาพสูงที่สุด สุดท้ายการจับคู่ที่ดีที่สุดของลักษณะเด่นและ ช่องสัญญาณของสัญญาณไฟฟ้ากล้ามเนื้อถูกเลือกเพื่อรวมกับ MFCC ที่สกัดจากสัญญาณเสียง ผล การทดลองแสดงให้เห็นว่าการรวมข้อมูลจากหลายแหล่งที่มาให้ผลดีกว่าการใช้ข้อมูลจากแหล่งที่มา เดียวกัน โดยมีค่าความถูกต้องสูงสุดประมาณ 97 เปอร์เซ็นต์ กล่าวอีกนัยหนึ่งค่าความถูกต้องเพิ่มขึ้น สูงสุดถึง 51 เปอร์เซ็นต์ เมื่อเทียบกับการรวมข้อมูลจากแหล่งที่มาเดียวกัน นอกจากนี้ค่าเบี่ยงเบน มาตรฐานของค่าความถูกต้องในการจําแนกมีค่าต่ําเมื่อเปรียบเทียบกับการรวมข้อมูลจากแหล่งที่มา เดียวกัน บ่งชี้ว่าระบบมีความทนทานต่อสัญญาณรบกวนของการรู้จําพยางค์เพิ่มขึ้น
Description: วิทยานิพนธ์ (ปร.ด. (วิศวกรรมไฟฟ้า))--มหาวิทยาลัยสงขลานครินทร์, 2562
URI: http://kb.psu.ac.th/psukb/handle/2016/13132
Appears in Collections:210 Thesis

Files in This Item:
File Description SizeFormat 
437742.pdf5.65 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons