Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Exploring appropriate characteristics of time series data for various long short-term memory models
Year (A.D.)
2023
Document Type
Thesis
First Advisor
นันทชัย กานตานันทะ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Industrial Engineering (ภาควิชาวิศวกรรมอุตสาหการ)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมอุตสาหการ
DOI
10.58837/CHULA.THE.2023.853
Abstract
ข้อมูลมีความสำคัญในการดำเนินชีวิตและธุรกิจ และในปัจจุบันที่ข้อมูลมีปริมาณมาก การพยากรณ์ข้อมูลอนุกรมเวลาจึงเป็นกระบวนการที่มีบทบาทสำคัญ หนึ่งในเทคนิคที่ได้รับความนิยมในการพยากรณ์คือ การเรียนรู้ของเครื่อง (ML) โดยเฉพาะตัวแบบ LSTM การเลือกใช้ตัวแบบ LSTM ในการพยากรณ์ข้อมูลอนุกรมเวลายังมีความท้าทาย เนื่องจากประสิทธิภาพของตัวแบบขึ้นอยู่กับลักษณะเฉพาะของข้อมูลอนุกรมเวลา เช่น Skewness Kurtosis Chaotic และ Coefficient of Variation (CV) การศึกษานี้จึงมุ่งเน้นไปที่การวิเคราะห์ลักษณะเฉพาะของข้อมูลอนุกรมเวลาและผลกระทบต่อประสิทธิภาพของตัวแบบ LSTM แบบต่าง ๆ ได้แก่ LSTM Bi-LSTM และ CNN-LSTM โดยใช้ชุดข้อมูลจำนวน 50 ชุด จาก www.kaggle.com และสร้างชุดข้อมูลเพื่อพิจารณาทางสถิติด้วยการออกแบบการทดลอง (DOE) ผลการศึกษาพบว่าลักษณะที่ส่งผลต่อประสิทธิภาพการพยากรณ์คือ Skewness Kurtosis และCV โดย Skewness จะส่งผลต่อประสิทธิภาพอย่างมีนัยสำคัญต่อเมื่อข้อมูลชุดนั้นมี Kurtosis ร่วมด้วย ส่วน Kurtosis และ CV ส่งผลเสียต่อประสิทธิภาพการพยากรณ์เมื่อ Kurtosis เป็นแบบ Leptokurtic และ CV มีค่ามากกว่า 20% ซึ่งสอดคล้องกันทั้งจากชุดข้อมูลที่ได้จาก www.kaggle.com และข้อมูลที่ถูกสร้างขึ้นมา ความโกลาหลจะส่งผลอย่างมีนัยสำคัญมี Skewness Kurtosis และ CV ร่วมด้วย และตัวแบบไม่ส่งผลต่อประสิทธิภาพการพยากรณ์
Other Abstract (Other language abstract of ETD)
Data is important in both life and business. In today's era, where data is abundant, time series forecasting has become a significant process. One popular technique for forecasting is machine learning (ML), particularly the Long Short-Term Memory (LSTM) model. However, selecting an appropriate LSTM model for time series forecasting remains challenging due to the model's performance dependency on specific characteristics of the time series data, such as Skewness, Kurtosis, Chaotic behavior, and the Coefficient of Variation (CV). This study focuses on analyzing these characteristics and their impact on the performance of various LSTM models, including LSTM, Bi-LSTM, and CNN-LSTM. The research utilizes 50 datasets from www.kaggle.com and generates additional datasets for statistical consideration through Design of Experiments (DOE). The findings indicate that Skewness, Kurtosis, and CV significantly affect forecasting performance. Skewness notably impacts performance when the dataset also exhibits Kurtosis. Both Kurtosis and CV detrimentally affect forecasting performance when the Kurtosis is Leptokurtic and the CV exceeds 20%. These results are consistent across both Kaggle-sourced and generated datasets. Additionally, chaotic behavior significantly influences performance in the presence of Skewness, Kurtosis, and CV. The choice of the LSTM model does not significantly affect forecasting performance.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
แก้วหวังสกูล, ลักษณ์นภิศ, "การสำรวจคุณลักษณะของอนุกรมเวลาที่เหมาะสมกับตัวแบบความจำระยะยาวระยะสั้นต่าง ๆ" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 12002.
https://digital.car.chula.ac.th/chulaetd/12002