Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Comparing imputation methods for multivariate time series: a case study industrial group index of Thailand stock market
Year (A.D.)
2024
Document Type
Thesis
First Advisor
นัท กุลวานิช
Faculty/College
Faculty of Commerce and Accountancy (คณะพาณิชยศาสตร์และการบัญชี)
Department (if any)
Department of Statistics (ภาควิชาสถิติ)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
สถิติและวิทยาการข้อมูล
DOI
10.58837/CHULA.THE.2024.719
Abstract
การศึกษานี้มีวัตถุประสงค์เพื่อเปรียบเทียบวิธีการใส่ค่าสูญหายสำหรับอนุกรมเวลาเชิงพหุ และประเมินผลเพื่อเลือกวิธีการใส่ค่าสูญหายที่เหมาะสมที่สุดสำหรับอนุกรมเวลาเชิงพหุ โดยใช้ข้อมูลทุติยภูมิดัชนีราคากลุ่มอุตสาหกรรมของตลาดหลักทรัพย์แห่งประเทศไทย 8 กลุ่มอุตสาหกรรม จากฐานข้อมูล SETSMART ตั้งแต่วันที่ 1 มกราคม พ.ศ. 2547 ถึง 1 มกราคม พ.ศ. 2567 รวมทั้งสิ้น 4877 วัน ซึ่งได้มีการกำหนดรูปแบบการสูญหายออกเป็น 3 รูปแบบ ได้แก่ การสูญหายรูปแบบสุ่ม การสูญหายรูปแบบช่วงตามลำดับ และการสูญหายรูปแบบบล็อก และกำหนดสัดส่วนการสูญหายของข้อมูลที่ร้อยละ 5 10 20 30 40 และ 50 ตามลำดับ โดยจำแนกวิธีการใส่ค่าสูญหายออกเป็น 3 กลุ่ม ได้แก่ การใส่ค่าสูญหายด้วยวิธีการเชิงสถิติ ประกอบไปด้วย ค่าเฉลี่ย ค่ามัธยฐาน ข้อมูลสุดท้ายก่อนการสูญหาย (LOCF) ข้อมูลล่าสุดหลังการสูญหาย (NOCB) และการประมาณค่าช่วงเส้นตรง (Linear Interpolation) การใส่ค่าสูญหายด้วยวิธีการเรียนรู้ของเครื่อง ประกอบไปด้วย ค่าคาดหวังสูงที่สุด (EM) การใส่ค่าสูญหายด้วยการทดแทนแบบพหุคูณด้วยสมการลูกโซ่ (MICE) เพื่อนบ้านใกล้เคียงที่สุด (KNN) และป่าสุ่ม (Random Forest) และการใส่ค่าสูญหายด้วยวิธีการเรียนรู้เชิงลึก ประกอบไปด้วย GP-VAE USGAN และ SAITS นอกจากนี้ผู้วิจัยใช้ค่ารากที่สองของค่าความคลาดเคลื่อนกำลังสองโดยเฉลี่ย (RMSE) ค่าความคลาดเคลื่อนสัมบูรณ์โดยเฉลี่ย (MAE) และค่าร้อยละความคลาดเคลื่อนสัมบูรณ์โดยเฉลี่ย (MAPE) ในการวัดประสิทธิภาพการใส่ค่าสูญหาย ผลการศึกษาพบว่าที่รูปแบบการสูญหายทั้ง 3 รูปแบบ และสัดส่วนการสูญหายที่น้อยกว่าร้อยละ 50 การใสค่าสูญหายด้วยการประมาณค่าช่วงเส้นตรง (Linear Interpolation) มีประสิทธิภาพสูงที่สุด ในขณะที่สัดส่วนการสูญหายร้อยละ 50 ของรูปแบบการสูญหายทั้ง 3 รูปแบบ การใส่ค่าสูญหายด้วยวิธีป่าสุ่ม (Random Forest) มีประสิทธิภาพสูงที่สุด
Other Abstract (Other language abstract of ETD)
This study investigates and compares imputation methods for multivariate time series data to identify the most effective approach. Using secondary data of stock price indices from eight industrial sectors in the Stock Exchange of Thailand, retrieved from the SETSMART database, the study covers 4,877 days from January 1, 2004, to January 1, 2024. Missing data patterns were categorized into three types: random missing, sequential missing, and block missing, with proportions set at 5%, 10%, 20%, 30%, 40%, and 50%. The imputation methods were grouped into three categories: statistical methods (mean, median, LOCF, NOCB, and linear interpolation), machine learning methods (EM, MICE, KNN, and random forest), and deep learning methods (GP-VAE, USGAN, and SAITS). Performance was assessed using root mean squared error (RMSE), mean absolute error (MAE), and mean absolute percentage error (MAPE). Results indicated that linear interpolation was the most efficient method for missing proportions below 50% across all patterns, while random forest was the most efficient method for a 50% missing data proportion.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ยิ่งประทานพร, พงษ์พล, "การเปรียบเทียบวิธีการใส่ค่าสูญหายสำหรับอนุกรมเวลาเชิงพหุ กรณีศึกษาดัชนีราคากลุ่มอุตสาหกรรมตลาดหลักทรัพย์แห่งประเทศไทย" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 74557.
https://digital.car.chula.ac.th/chulaetd/74557