Chulalongkorn University Theses and Dissertations (Chula ETD)

การเปรียบเทียบการวิเคราะห์ข้อมูลระหว่างการวิเคราะห์ข้อมูลจำแนกประเภท และการวิเคราะห์การถดถอยมัลติโนเมียลโลจิสติค สำหรับข้อมูลระยะยาว

Other Title (Parallel Title in Other Language of ETD)

Comparison between discriminant analysis and multinomial logistic regression with longitudinal data

Year (A.D.)

2009

Document Type

Thesis

First Advisor

สุพล ดุรงค์วัฒนา

Faculty/College

Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)

Degree Name

สถิติศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.2009.696

Abstract

เปรียบเทียบวิธีการวิเคราะห์ข้อมูลที่มีลักษณะของตัวแปรตามเป็นแบบพหุสำหรับข้อมูลระยะยาว วิธีการที่ใช้ในการวิเคราะห์มี 2 วิธี ได้แก่ การวิเคราะห์จำแนกประเภทแบบพหุ (multiple discriminant method: MDA) ซึ่งใช้หลักของเบส์ในการจำแนกกลุ่ม และวิธีการวิเคราะห์การถดถอย มัลติโนเมียลโลจิสติค (multiple logistic regression method: MLR) ซึ่งใช้สมการประมาณค่าโดยนัยทั่วไป (generalized estimating equation: GEE) ในการจำแนกกลุ่มข้อมูลที่นำมาวิเคราะห์ประกอบด้วยตัวแปรอิสระและตัวแปรตาม ซึ่งตัวแปรตามเป็นตัวแปรเชิงคุณภาพ ที่มีจำนวนกลุ่มมากกว่า 2 กลุ่ม และตัวแปรอิสระประกอบด้วยตัวแปรเชิงปริมาณและตัวแปรเชิงคุณภาพ โดยการวิจัยครั้งนี้ใช้ข้อมูลจริงทางด้านการแพทย์จำนวน 3 ชุด สำหรับการวิเคราะห์ทั้ง 2 วิธี (การติดตามผลโรคนอนไม่หลับ การผ่าตัดเปลี่ยนผิวข้อสะโพก และการรักษาอาการเอ็นร้อยหวายฉีก ตามลำดับ) เกณฑ์ที่ใช้ในการตัดสินใจคือ การวัดค่าความถูกต้องในการจัดกลุ่ม ผลการวิเคราะห์ข้อมูล สรุปได้ดังนี้ ข้อมูลชุดที่ 1 เมื่อกำหนดให้โครงสร้างของความแปรปรวนและความแปรปรวนร่วมมีลักษณะเป็นแบบยูนิฟอร์ม โดยใช้ฟังก์ชันสำเร็จรูป ORDGEE พบว่า วิธีการของ MLR มีค่าความถูกต้องในการจัดกลุ่มสูงสุดข้อมูลชุดที่ 2 เมื่อกำหนดให้โครงสร้างของความแปรปรวนและความแปรปรวนร่วม มีลักษณะเป็นแบบอิสระและยูนิฟอร์ม โดยใช้ฟังก์ชันสำเร็จรูป REPOLR พบว่า ทั้ง 2 วิธีการวิเคราะห์ มีค่าค่าความถูกต้องในการจัดกลุ่มเท่ากัน ข้อมูลชุดที่ 3 เมื่อกำหนดให้โครงสร้างของความแปรปรวนและความแปรปรวนร่วมมีลักษณะเป็นแบบอิสระและยูนิฟอร์ม โดยใช้ฟังก์ชันสำเร็จรูป REPOLR พบว่า ทั้ง 2 วิธีการวิเคราะห์ มีค่าค่าความถูกต้องในการจัดกลุ่มเท่ากัน เมื่อพิจารณาถึงความเหมาะสมในการวิเคราะห์ข้อมูล ผู้วิจัยแนะนำให้ใช้วิธี MLR โดยใช้เทคนิค GEE เนื่องจากเป็นวิธีง่ายและสะดวกในการประยุกต์ใช้กับข้อมูลระยะยาว และสอดคล้องกับเงื่อนไขของข้อมูล สำหรับวิธีการของ MDA มีเงื่อนไขที่ใช้ในการวิเคราะห์มาก เช่น เงื่อนไขของตัวแปรอิสระต้องมีการแจกแจงแบบปกติหลายตัวแปร สำหรับฟังก์ชันสำเร็จรูปผู้วิจัยแนะนำให้ใช้ฟังก์ชัน REPOLR เนื่องจากมีประสิทธิภาพในการวิเคราะห์ดีกว่าฟังก์ชัน ORDGEE.

Other Abstract (Other language abstract of ETD)

To compare two methods of multiple classification for longitudinal data. These two methods are multiple discriminant method (MDA) using Bayes’ rule as a classification rule and multiple logistic regression method (MLR) using generalized estimating equation (GEE) as a classification rule. The data consist of independent variables and a dependent variable. The dependent variable is categorical one which there are multiple categories. The independent variables are either quantitative variable or categorical variable. Three actual data sets from medical studies were analyzed using both methods (e.g. insomnia study, hip replacement study and achillies tendon rupture study, respectively). The correct classification rate is used as a criterion for comparing these two methods. The results are summarized as follows. From the first data set, when variance-covariance structure is uniform, and ORDGEE built-in function is used, it is found that the MLR method yields the higher correct classification rate. From the second data set, when variance-covariance structure is independent and uniform, and REPOLR built-in function is applied, it is found that both methods yield equal correct classification rate. From the third data set, when variance-covariance structure is independent and uniform, and REPOLR built-in function is applied, it is found that both methods yield equal correct classification rate. For appropriateness of data analysis, it is recommended that the MLR method with GEE technique should be used because it is easily and conveniently applied to longitudinal data. In contrast, the MDA method is required several assumptions such as multivariate normality of independent variables. For built-in function selection, it is recommended REPOLR should be used because it is more effective than ORDGEE function in all cases of variance-covariance structure.

Share

COinS