Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Backorder prediction using machine learning for imbalanced data classification
Year (A.D.)
2022
Document Type
Thesis
First Advisor
ปุณณมี สัจจกมล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Industrial Engineering (ภาควิชาวิศวกรรมอุตสาหการ)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมอุตสาหการ
DOI
10.58837/CHULA.THE.2022.890
Abstract
การใช้การเรียนรู้ของเครื่องในการพยากรณ์สินค้าคงค้างกับข้อมูลที่มีรายการสินค้าเป็นจำนวนมากจึงเป็นเรื่องที่จำเป็น ซึ่งในความเป็นจริงข้อมูลที่เจอมักมีความไม่สมดุลทำให้ประสิทธิภาพในการพยากรณ์ด้วยการเรียนรู้ของเครื่องลดลง การพยากรณ์สินค้าคงค้างที่ไม่ถูกต้องนั้นส่งผลต่อความไว้วางใจของผู้ซื้อและทำให้เสียค่าใช้จ่ายถึงร้อยละ 10 ของรายได้ งานวิจัยฉบับนี้จึงได้ศึกษาการปรับสมดุลข้อมูลด้วยวิธี Threshold Moving และการปรับระดับข้อมูลด้วยวิธีสุ่มเพื่อสร้างตัวแบบที่มีประสิทธิภาพและมีความสามารถในการพยากรณ์ข้อมูลกลุ่มน้อยสูง โดยวิธีการปรับระดับข้อมูลมี 4 วิธีได้แก่ การปรับลดข้อมูลด้วยวิธี NearMiss-3, การปรับลดข้อมูลด้วยวิธี OSS, การปรับเพิ่มข้อมูลด้วยวิธี SMOTE และการปรับลดผสมกับเพิ่มข้อมูลด้วยวิธี OSS ผสม SMOTE โดยอัลกอริทึมที่ใช้ได้แก่ LOGIST, FOREST และ XGBoost นอกจากนี้มีการใช้การตรวจสอบแบบไขว้แบบ 5 กลุ่มกับตัวแบบเพื่อป้องกันการเกิด Overfitting ในวิจัยฉบับนี้มีการวัดประสิทธิภาพของตัวแบบด้วย AUROC, F1 score และ G-Mean ซึ่งผลที่ได้จากงานวิจัยฉบับนี้คือการจัดการข้อมูลด้วย Threshold Moving ด้วยการวัดประสิทธิภาพ G-Mean นั้นให้น้ำหนักกับข้อมูลกลุ่มน้อยมากกว่า F1 score และให้ผลลัพธ์ดีกว่า AUROC โดยวิธีการที่ให้ผลลัพธ์ดีที่สุดคือการจัดการข้อมูลด้วย Threshold Moving ด้วยการวัดประสิทธิภาพ G-Mean สำหรับอัลกอริทึม Forest ซึ่งได้ค่าประมาณ 0.8737
Other Abstract (Other language abstract of ETD)
It is essential to use machine learning for predicting products’ backorder to deal with massive data of SKU. Naturally, real world data is usually imbalanced data which is affect to the efficiency of machine learning. Mistaken predicting products’ backorder negatively affects customer’s service level and decrease 10 percent of their revenue. This research has studied adjusting data by Threshold Moving and sampling methods for creating efficient model and high forecast proficiency in minority class model. There are 4 methods for adjusting data including NearMiss-3 for undersampling dataset, One-Sided Selection (OSS) for undersampling dataset, SMOTE for oversampling dataset, and combining OSS and SMOTE dataset. LOGIST, FOREST and XGBoost are used as algorithms and Stratified 5-Fold Cross-Validation is used to prevent overfitting. In this research, AUROC, F1 score and G-Mean are used as the efficiency measurements. The result obtained from this research study is Threshold Moving with the G-Mean metric gives more weight to the minority data group compared to F1 score and provides better results than AUROC. The most effective method is using Threshold Moving with G-Mean metric for the Forest algorithm, achieving an approximate value of 0.8737.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ธาดาจิรสกุล, ธิรดา, "การพยากรณ์สินค้าคงค้างด้วยการเรียนรู้ของเครื่องสำหรับข้อมูลไม่สมดุล" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6600.
https://digital.car.chula.ac.th/chulaetd/6600