Please use this identifier to cite or link to this item: http://kb.psu.ac.th/psukb/handle/2016/18991
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorKlairung Samart-
dc.contributor.authorThidarat Thongsri-
dc.date.accessioned2023-10-24T04:02:15Z-
dc.date.available2023-10-24T04:02:15Z-
dc.date.issued2022-
dc.identifier.urihttp://kb.psu.ac.th/psukb/handle/2016/18991-
dc.descriptionMaster of Science (Applied Statistics),2022en_US
dc.description.abstractMultiple linear regression is a statistical study that investigates the relationship between the response and the independent variables and may be used to predict or estimate the response values. Missing data is a serious issue that regularly occurs and impacts data analysis, resulting in the loss of information in certain critical areas and data analysis outcomes that differ greatly from reality. This research is divided into two sections. The first project study’s objective is to develop and compare the efficiency of eight imputation methods: hot deck imputation (HD), k-nearest neighbors imputation (KNN), stochastic regression imputation (SR), predictive mean matching imputation (PMM), random forest imputation (RF), stochastic regression random forest with equivalent weight imputation (SREW), k-nearest random forest with equivalent weight imputation (KREW), and k-nearest stochastic regression and random forest with equivalent weight imputation (KSREW). The simulation was done in this study with sample sizes of 30, 60, 100, and 150 with missing percentages of 10%, 20%, 30%, and 40% on both independent and response variables. The average mean square error (AMSE) was used to compare efficiency. The results reveal that the proposed composite approaches outperformed the single ones, particularly a three-component method called KSREW. The second project is to create a function for analyzing multiple linear regressions using the RStudio software. The mlrpro package is an intuitive regression analysis tool that is suitable for novice users. It is a built-in package that can fit the regression model, select independent variables, validate the assumptions of multiple linear regression, transform data using the Box-Cox transformation, and determine which regression model is the most suited. The regression coefficients, residuals, fitted values, and statistics related to regression, such as residual standard error, multiple R-squared, F-statistic, and so on, may all be obtained through the use of our mlrpro package. In addition to this, it provides visualization tools of the residuals plot, the normal Q-Q plot, and the lambda interval plot derived from Box-Cox transformations.en_US
dc.description.sponsorshipGraduate Fellowship (Bachelor – Master), Faculty of Science Research Fund, Prince of Songkla University.en_US
dc.language.isoenen_US
dc.publisherPrince of Songkla Universityen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Thailand*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/th/*
dc.subjectmissing dataen_US
dc.subjectimputation methoden_US
dc.subjectcomposite methoden_US
dc.subjectmultiple linear regressionen_US
dc.titleDevelopment of Data Imputation Methods for the Multiple Linear Regressionen_US
dc.title.alternativeการพัฒนาวิธีการประมาณค่าสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณen_US
dc.typeThesisen_US
dc.contributor.departmentFaculty of Science (Applied Science)-
dc.contributor.departmentคณะวิทยาศาสตร์ ภาควิชาวิทยาศาสตร์ประยุกต์-
dc.description.abstract-thการวิเคราะห์การถดถอยเชิงเส้นพหุคูณเป็นการวิเคราะห์ทางสถิติที่เกี่ยวข้องกับตัวแปรตามที่มีความสัมพันธ์กับตัวแปรอิสระมากกว่าหนึ่งตัว โดยการวิเคราะห์การถดถอยเชิงเส้นพหุคูณสามารถใช้ในการทำนายหรือประมาณค่าของตัวแปรตามได้ แต่ปัญหาสำคัญที่มักเกิดขึ้นเสมอในการวิเคราะห์ข้อมูลคือ การเกิดข้อมูลสูญหาย ซึ่งอาจจะทำให้ผลการวิเคราะห์ข้อมูลมีความคลาดเคลื่อนไปจากความเป็นจริงและสูญเสียรายละเอียดในบางส่วนที่สำคัญไป งานวิจัยนี้แบ่งออกเป็น 2 ส่วน ส่วนแรกมีวัตถุประสงค์เพื่อพัฒนาและเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหาย 8 วิธี ได้แก่ Hot deck imputation (HD), K-nearest neighbors imputation (KNN), Stochastic regression, imputation (SR), Predictive mean matching imputation (PMM), Random forest imputation (RF), Stochastic regression random forest with equivalent weight imputation (SREW), K-nearest random forest with equivalent weight imputation (KREW), และ K-nearest stochastic regression and random forest with equivalent weight imputation (KSREW) ในการศึกษานี้ใช้ตัวอย่างขนาด 30, 60, 100 และ 150 โดยมีเปอร์เซ็นต์การสูญหายที่ระดับ 10%, 20%, 30% และ 40% บนตัวแปรอิสระและตัวแปรตอบสนอง ใช้ Average mean square error (AMSE) ในการเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหาย ผลการวิจัยพบว่า การนำวิธีการประมาณค่าสูญหายมาผสมผสานกันมีประสิทธิภาพมากกว่าวิธีการประมาณค่าสูญหายแบบเดี่ยว และวิธี KSREW มีประสิทธิภาพในการประมาณค่าสูญหายดีที่สุด งานวิจัยในส่วนที่ 2 มีวัตถุประสงค์เพื่อสร้างฟังก์ชันสำเร็จรูปในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณแบบครบวงจร โดยใช้โปรแกรม RStudio ในชื่อของแพ็กเกจ mlrpro ซึ่งเป็นแพ็กเกจในการวิเคราะห์การถดถอยที่ใช้งานง่าย เหมาะสําหรับผู้เริ่มต้น เนื่องจากในตัวแพ็กเกจสามารถเลือกตัวแปรอิสระที่มีอิทธิพลต่อตัวแปรตาม สร้างตัวแบบการถดถอยที่ดีและเหมาะสมรวมถึง ตรวจสอบข้อสมมุติเบื้องต้นของการวิเคราะห์การถดถอยและแปลงข้อมูลโดยใช้การแปลง Box-Cox แบบครบวงจร นอกจากนี้ในตัวแพ็กเกจ mlrpro สามารถคำนวณค่าสัมประสิทธิ์การถดถอย ค่าส่วนเหลือ ค่าทำนายและค่าสถิติที่เกี่ยวข้องกับการวิเคราะห์การถดถอย อีกทั้งยังนําเสนอกราฟิกในรูปของกราฟต่าง ๆ ที่เกี่ยวข้องกับกับการวิเคราะห์การถดถอยเชิงเส้นพหุคูณen_US
Appears in Collections:340 Thesis

Files in This Item:
File Description SizeFormat 
6410220009.pdf5.93 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons