Please use this identifier to cite or link to this item: http://kb.psu.ac.th/psukb/handle/2016/12499
Title: การสกัดรูปแบบคำยืมสำหรับการประเมินระดับความยากง่ายของข้อความในภาษาไทย
Other Titles: Pattern-based loanword extraction for text readability assessment in Thai
Authors: ณัฐพงศ์ ทองเทพ
บุรฮาน หวังเหล็ม
College of Computing (Information Technology)
Keywords: ภาษาไทย คำและวลี;ภาษาไทย ประโยค
Issue Date: 2017
Publisher: มหาวิทยาลัยสงขลานครินทร์
Abstract: We read many documents every day, and it is desirable to be able to choose which documents to read more easily and quickly. In due course, not only what is written but also how it is written are important factors for document choice. There are a variety of characteristics in how a text is written, and one important idea is text readability, which is characterized by difficulty levels of words, phrases, grammar, etc. that are employed. Text readability for Thai documents, however, have not been extensively investigated. This research proposes a new method for text readability assessment for Thai documents which consists of new text readability features and a new readability assessment technique. Based on human observations of a large Thai document set, this research focuses specifically on the use of seven different types of loanwords in Thai: 1) Pali word (P), 2) Sanskrit word (S), 3) Orthography (O), 4) Pali and Sanskrit word (PS), 5) Pali word and Orthography (PO), 6) Sanskrit word and Orthography (SO), and 7) Pali, Sanskrit word and Orthography (PSO). Employing features of these loanwords, we propose three new Thai text readability assessment techniques and compared them with human assessment. These three techniques count the frequency of those loanwords to cluster Thai documents into three levels: Easy, Medium, and Hard. Each technique is based on different clustering methods: 1) Document clustering using the proportion of the total number of documents (DoC-A) 2) Document clustering using class interval calculated from the actual maximum value (DoC-B) 3) Document clustering using class interval calculated from the actual maximum and minimum values (DoC-C). Our comparative experiment among these three techniques shows that the DoC-A technique is most approximate to human assessment at 75% of accuracy.
Abstract(Thai): ในแต่ละวนั มนุษยต์อ้งอ่านเอกสารเป็นจา นวนมากและการเลือกเอกสารให้ตรงกบั ความตอ้งการไดอ้ยา่ งรวดเร็วเป็นสิ่งสา คญั สา หรับผูอ้่าน ปัจจยัที่ส่งผลต่อการเลือกเอกสารไดแ้ก่ เน้ือหา ภายในเอกสารและวิธีการเขียนที่มีความยากง่ายของขอ้ความ เช่น ความยากง่ายของคา วลีไวยากรณ์ อย่างไรก็ตามการวิจยัเกี่ยวกบัความยากง่ายของขอ้ความในเอกสารภาษาไทยอยู่ในข้นั เริ่มตน้ ดงัน้ัน งานวจิยัน้ีไดน้ า เสนอวธิีสา หรับการประเมินระดบัความยากง่ายของขอ้ความในเอกสารภาษาไทยรูปแบบ ใหม่ประกอบดว้ยคุณสมบตัิของระดบัความยากง่ายในขอ้ความและเทคนิคการประเมินระดบัความยาก ง่าย ซ่ึงงานวจิยัน้ีใชค้า ยมื 7 ประเภท เป็นคุณสมบตัิสา หรับการจดัระดบัความยากง่ายของขอ้ความซ่ึงเกิด จากการสังเกตรูปแบบของคา ยมืจากชุดเอกสารภาษาไทยไดแ้ก่1) บาลี (Pali: P) 2) สันสกฤต (Sanskrit: S) 3) ตัวการันต์ (Orthography: O) 4) บาลีและสันสกฤต (Pali & Sanskrit: PS) 5) บาลีและตัวการันต์ (Pali & Orthography: PO) 6) สันสกฤตและตัวการันต์ (Sanskrit & Orthography: SO) 7) บาลี สันสกฤต และตัว การันต์ (Pali, Sanskrit, Orthography: PSO)และงานวิจยัน้ีไดน้ า เสนอเทคนิคการประเมินระดบัความยาก ง่ายของขอ้ความรูปแบบใหม่3เทคนิค คือ 1)การจดักลุ่มเอกสารที่คา นวณจากสัดส่วนของจา นวนเอกสาร ท้งัหมด (Document Clustering A: DoC-A) 2) การจดักลุ่มเอกสารดว้ยอนั ตรภาคช้นั ที่คา นวณจากค่าที่มาก ที่สุด (Document Clustering B: DoC-B) และ 3)การจดักลุ่มเอกสารดว้ยอนั ตรภาคช้นั ที่คา นวณจากค่าที่ มากที่สุดและนอ้ยที่สุดที่เกิดข้ึนจริง(Document Clustering C: DoC-C) ซ่ึงเทคนิคการจดักลุ่มท้งั3เทคนิค น้ีจะจดัระดบัความยากง่ายออกเป็น 3ระดับ คือ 1)ง่าย2) ปานกลาง และ 3) ยาก โดยอ้างอิงจากจ านวนค า ยืมในเอกสารและนา ผลการประเมินของเทคนิคท้งั 3เทคนิคเปรียบเทียบกบัผลการประเมินของกลุ่ม ผูอ้่าน ผลการเปรียบเทียบแสดงให้เห็นว่าการประเมินระดบัความยากง่ายด้วยเทคนิค DoC-A มีความ ใกลเ้คียงกบัผลการประเมินระดบัความยากง่ายของกลุ่มผอู้่านมากที่สุดถึงร้อยละ75
Description: วิทยานิพนธ์ (วท.ม. (เทคโนโลยีสารสนเทศ))--มหาวิทยาลัยสงขลานครินทร์, 2560
URI: http://kb.psu.ac.th/psukb/handle/2016/12499
Appears in Collections:976 Thesis

Files in This Item:
File Description SizeFormat 
422670.pdf7.45 MBAdobe PDFView/Open


Items in PSU Knowledge Bank are protected by copyright, with all rights reserved, unless otherwise indicated.