Please use this identifier to cite or link to this item: http://kb.psu.ac.th/psukb/handle/2016/18991
Title: Development of Data Imputation Methods for the Multiple Linear Regression
Other Titles: การพัฒนาวิธีการประมาณค่าสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ
Authors: Klairung Samart
Thidarat Thongsri
Faculty of Science (Applied Science)
คณะวิทยาศาสตร์ ภาควิชาวิทยาศาสตร์ประยุกต์
Keywords: missing data;imputation method;composite method;multiple linear regression
Issue Date: 2022
Publisher: Prince of Songkla University
Abstract: Multiple linear regression is a statistical study that investigates the relationship between the response and the independent variables and may be used to predict or estimate the response values. Missing data is a serious issue that regularly occurs and impacts data analysis, resulting in the loss of information in certain critical areas and data analysis outcomes that differ greatly from reality. This research is divided into two sections. The first project study’s objective is to develop and compare the efficiency of eight imputation methods: hot deck imputation (HD), k-nearest neighbors imputation (KNN), stochastic regression imputation (SR), predictive mean matching imputation (PMM), random forest imputation (RF), stochastic regression random forest with equivalent weight imputation (SREW), k-nearest random forest with equivalent weight imputation (KREW), and k-nearest stochastic regression and random forest with equivalent weight imputation (KSREW). The simulation was done in this study with sample sizes of 30, 60, 100, and 150 with missing percentages of 10%, 20%, 30%, and 40% on both independent and response variables. The average mean square error (AMSE) was used to compare efficiency. The results reveal that the proposed composite approaches outperformed the single ones, particularly a three-component method called KSREW. The second project is to create a function for analyzing multiple linear regressions using the RStudio software. The mlrpro package is an intuitive regression analysis tool that is suitable for novice users. It is a built-in package that can fit the regression model, select independent variables, validate the assumptions of multiple linear regression, transform data using the Box-Cox transformation, and determine which regression model is the most suited. The regression coefficients, residuals, fitted values, and statistics related to regression, such as residual standard error, multiple R-squared, F-statistic, and so on, may all be obtained through the use of our mlrpro package. In addition to this, it provides visualization tools of the residuals plot, the normal Q-Q plot, and the lambda interval plot derived from Box-Cox transformations.
Abstract(Thai): การวิเคราะห์การถดถอยเชิงเส้นพหุคูณเป็นการวิเคราะห์ทางสถิติที่เกี่ยวข้องกับตัวแปรตามที่มีความสัมพันธ์กับตัวแปรอิสระมากกว่าหนึ่งตัว โดยการวิเคราะห์การถดถอยเชิงเส้นพหุคูณสามารถใช้ในการทำนายหรือประมาณค่าของตัวแปรตามได้ แต่ปัญหาสำคัญที่มักเกิดขึ้นเสมอในการวิเคราะห์ข้อมูลคือ การเกิดข้อมูลสูญหาย ซึ่งอาจจะทำให้ผลการวิเคราะห์ข้อมูลมีความคลาดเคลื่อนไปจากความเป็นจริงและสูญเสียรายละเอียดในบางส่วนที่สำคัญไป งานวิจัยนี้แบ่งออกเป็น 2 ส่วน ส่วนแรกมีวัตถุประสงค์เพื่อพัฒนาและเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหาย 8 วิธี ได้แก่ Hot deck imputation (HD), K-nearest neighbors imputation (KNN), Stochastic regression, imputation (SR), Predictive mean matching imputation (PMM), Random forest imputation (RF), Stochastic regression random forest with equivalent weight imputation (SREW), K-nearest random forest with equivalent weight imputation (KREW), และ K-nearest stochastic regression and random forest with equivalent weight imputation (KSREW) ในการศึกษานี้ใช้ตัวอย่างขนาด 30, 60, 100 และ 150 โดยมีเปอร์เซ็นต์การสูญหายที่ระดับ 10%, 20%, 30% และ 40% บนตัวแปรอิสระและตัวแปรตอบสนอง ใช้ Average mean square error (AMSE) ในการเปรียบเทียบประสิทธิภาพของวิธีการประมาณค่าสูญหาย ผลการวิจัยพบว่า การนำวิธีการประมาณค่าสูญหายมาผสมผสานกันมีประสิทธิภาพมากกว่าวิธีการประมาณค่าสูญหายแบบเดี่ยว และวิธี KSREW มีประสิทธิภาพในการประมาณค่าสูญหายดีที่สุด งานวิจัยในส่วนที่ 2 มีวัตถุประสงค์เพื่อสร้างฟังก์ชันสำเร็จรูปในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณแบบครบวงจร โดยใช้โปรแกรม RStudio ในชื่อของแพ็กเกจ mlrpro ซึ่งเป็นแพ็กเกจในการวิเคราะห์การถดถอยที่ใช้งานง่าย เหมาะสําหรับผู้เริ่มต้น เนื่องจากในตัวแพ็กเกจสามารถเลือกตัวแปรอิสระที่มีอิทธิพลต่อตัวแปรตาม สร้างตัวแบบการถดถอยที่ดีและเหมาะสมรวมถึง ตรวจสอบข้อสมมุติเบื้องต้นของการวิเคราะห์การถดถอยและแปลงข้อมูลโดยใช้การแปลง Box-Cox แบบครบวงจร นอกจากนี้ในตัวแพ็กเกจ mlrpro สามารถคำนวณค่าสัมประสิทธิ์การถดถอย ค่าส่วนเหลือ ค่าทำนายและค่าสถิติที่เกี่ยวข้องกับการวิเคราะห์การถดถอย อีกทั้งยังนําเสนอกราฟิกในรูปของกราฟต่าง ๆ ที่เกี่ยวข้องกับกับการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ
Description: Master of Science (Applied Statistics),2022
URI: http://kb.psu.ac.th/psukb/handle/2016/18991
Appears in Collections:340 Thesis

Files in This Item:
File Description SizeFormat 
6410220009.pdf5.93 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons