Chulalongkorn University Theses and Dissertations (Chula ETD)

การเปรียบเทียบการประมาณค่าพารามิเตอร์ระหว่างวิธีกำลังสองน้อยสุดเชิงส่วนและวิธีกำลังสองน้อยสุดด้วยวิธีการแปลงข้อมูลแบบกรามชมิดต์ สำหรับตัวแบบความถดถอยพหุเชิงเส้นที่เกิดพหุสัมพันธ์

Other Title (Parallel Title in Other Language of ETD)

A comparison of parameters estimation among partial least squares and ordinary least squares methods using gram-schmidt’s data transformation for multiple linear regression model with multicollinearity

Year (A.D.)

2012

Document Type

Thesis

First Advisor

สุพล ดุรงค์วัฒนา

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Degree Name

สถิติศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2012.547

Abstract

งานวิจัยครั้งนี้มีวัตถุประสงค์เพื่อประมาณค่าพารามิเตอร์ที่เหมาะสม โดยการเปรียบเทียบจากค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (MSE) ของตัวประมาณ สำหรับตัวแบบความถดถอยพหุเชิงเส้นของวิธีกำลังสองน้อยสุดเชิงส่วน (PLS) และวิธีกำลังสองน้อยสุดด้วยวิธีการแปลงข้อมูลแบบกรามชมิดต์ (OLS_G) เมื่อเกิดพหุสัมพันธ์รุนแรงระหว่างตัวแปรอิสระ ซึ่งทำการศึกษาภายใต้ตัวแปรอิสระมีการแจกแจงแบบปกติค่าเฉลี่ยเท่ากับ 0 ค่าส่วนเบี่ยงเบนมาตรฐานของตัวแปรอิสระเท่ากับ 2 และค่าความแปรปรวนของความคลาดเคลื่อนเท่ากับ 10 โดยมีจำนวนตัวแปรอิสระ (p) เท่ากับ 2 และ 3 ตัวแปร มีขนาดตัวอย่าง 50, 100 และ 200 มีค่าสัมประสิทธิ์ความถดถอยเบื้องต้น β₀=β₁=…=β[subscript p]=1 และระดับความสัมพันธ์ระหว่างตัวแปรอิสระแบ่งเป็น 2 กรณี คือ กรณีที่มีตัวแปรอิสระ 2 ตัวแปร มีระดับความสัมพันธ์ (ρ) เป็น 0.9, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98 และ 0.99 ส่วนกรณีที่มีตัวแปรอิสระ 3 ตัวแปร มีระดับความสัมพันธ์ (ρ) เป็น 0.91, 0.93, 0.95, 0.97 และ 0.99 ซึ่งในการศึกษาจะทำซ้ำจำนวน 1000 รอบผลการศึกษาพบว่ากรณี p เท่ากับ 2 ตัวแปร จะเกิดปัญหาพหุสัมพันธ์รุนแรงที่ ρ ตั้งแต่ 0.95 ขึ้นไป และกรณี p เท่ากับ 3 ตัวแปร ที่ n เท่ากับ 50 และ 100 จะเกิดปัญหาพหุสัมพันธ์รุนแรงที่ ρ ตั้งแต่ 0.93 ขึ้นไป ส่วนที่ n เท่ากับ 200 จะเกิดปัญหาพหุสัมพันธ์รุนแรงที่ ρ ตั้งแต่ 0.95 ขึ้นไป และทั้งสองกรณีมีเปอร์เซ็นต์การเกิดปัญหาพหุสัมพันธ์รุนแรงสูง ซึ่งส่งผลกระทบต่อการประมาณค่าสัมประสิทธิ์ความถดถอย ดังนั้นกรณี p เท่ากับ 2 ตัวแปร ที่ n เท่ากับ 50, 100 และ 200 ตามลำดับ และที่ ρ เท่ากับ 0.9-0.94, 0.9-0.97 และ 0.9-0.98 ตามลำดับ วิธี OLS_G มีประสิทธิภาพดีกว่าวิธี PLS แต่ที่ ρ เท่ากับ 0.95-0.99, 0.98-0.99 และ 0.99 ตามลำดับ วิธี PLS มีประสิทธิภาพดีกว่าวิธี OLS_G และกรณี p เท่ากับ 3 ตัวแปร วิธี PLS มีประสิทธิภาพดีกว่าวิธี OLS_G ทุกกรณีที่ทำการศึกษา โดยปัจจัยที่มีผลต่อค่า MSE ของทั้งสองกรณีนั้นพบว่าเมื่อ ρ เพิ่มขึ้น ค่า MSE ของวิธี PLS ไม่มีแนวโน้มที่แน่นอน ยกเว้นที่ p เท่ากับ 3 และ n เท่ากับ 200 ค่า MSE จะมีค่าลดลงเล็กน้อย ในขณะที่วิธี OLS_G จะมีค่าเพิ่มขึ้น และถ้า n เพิ่มขึ้น ค่า MSE ของทั้งสองวิธีจะมีค่าลดลง

Other Abstract (Other language abstract of ETD)

The objective of this research is to estimate optimal parameters by comparison from the mean square error (MSE) of the estimate for multiple linear regression models among Partial Least Square (PLS) and Ordinary Least Square Methods by using Gram-Schmidt’s data transformation (OLS_G) to solve multicollinearity violence problem of the independent variables. This study focuses on Normal distribution of the independent variables with µ=0, σx=2 and σ2=10. We will study on 2 and 3 independent variables (p) under the following condition; the sample size 50, 100 and 200, the initial regression coefficient is β₀=β₁=…=β[subscript p]=1 For case 2 independent variables, the multicollinearities (ρ) are defined to be 0.9, 0.91, 0.92, 0.93, 0.94, 0.95, and for the other case, 3 independent variables, ρ’s are defined to be 0.91, 0.93, 0.95, 0.97 and 0.99. We will generate each case with 1,000 simulation runs.In conclusion, is founded that problems of multicollinearity violence occurs when ρ is more than 0.95 for case 2 independent variables, and these problems depend on number of sample size for case 3 independent variables. In particular, for the latter case the problems occurs when ρ is more than 0.93 for sample size 50 and 100, and more than 0.95 for sample size 200. In both cases, the problems of multicollinearity violence will be occurred in high chance. Therefore, in case of p=2 at the sample size 50,100 and 200 in order and ρ is 0.9-0.94, 0.9-0.97 and 0.9-0.98 in order the OLS_G method is more effective than the PLS method. But, ρ is 0.95-0.99, 0.98-0.99 and 0.99 in order the PLS method is more effective than the OLS_G method. And in case of p=3 the PLS method is more effective than the OLS_G method. The factors affecting the MSE when ρ increases the MSE of the PLS method no definite trend exception p=3 and the sample size 200 the MSE decreased slightly while the OLS_G method increases. And the sample size increases the MSE of 2 cases decreases.

Share

COinS