Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Comparison of Hyperparameter Tuning Techniques in Educational Classification Models by Monte-Carlo Simulation

Year (A.D.)

2024

Document Type

Thesis

First Advisor

ประภาศิริ รัชชประภาพรกุล

Faculty/College

Faculty of Education (คณะครุศาสตร์)

Department (if any)

Department of Educational Research and Psychology (ภาควิชาวิจัยและจิตวิทยาการศึกษา)

Degree Name

ครุศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิธีวิทยาการพัฒนานวัตกรรมทางการศึกษา

DOI

10.58837/CHULA.THE.2024.1419

Abstract

การวิจัยนี้มีวัตถุประสงค์เพื่อ (1) วิเคราะห์ปัจจัยที่ส่งผลต่อประสิทธิภาพในการปรับแต่งไฮเปอร์พารามิเตอร์ของโมเดลจำแนกประเภท โดยใช้อัลกอริทึม Random Forest (RF) และ Support Vector Machine (SVM) และ (2) นำเสนอแนวทางในการเลือกใช้อัลกอริทึมและกำหนดขอบเขตพื้นที่การค้นหาไฮเปอร์พารามิเตอร์ที่เหมาะสมกับลักษณะของข้อมูล โดยแบ่งการศึกษาออกเป็น 2 ตอน ดังนี้ ตอนที่ 1 เป็นการจำลองข้อมูลด้วยวิธีมอนติคาร์โล (Monte Carlo Simulation) เพื่อสร้างชุดข้อมูลที่แตกต่างกันตามปัจจัยต่อไปนี้ (1) ขนาดตัวอย่าง (50, 200, 500) (2) จำนวนตัวแปรต่อเนื่อง (3, 5, 7) (3) ขนาดอิทธิพลของตัวแปร (ระดับสูง, ระดับกลาง) (4) ความสัมพันธ์ระหว่างตัวแปร (เชิงเส้น, ไม่เชิงเส้น) และ (5) พื้นที่การค้นหาค่าไฮเปอร์พารามิเตอร์ (all, importance) แล้วทำการปรับแต่งไฮเปอร์พารามิเตอร์ด้วย 4 วิธี ได้แก่ Bayesian Optimization (BO), Genetic Algorithm (GA), Hyperband (HPB) และ Particle Swarm Optimization (PSO) จากนั้นประเมินประสิทธิภาพของโมเดลด้วย 3 องค์ประกอบได้แก่ ได้แก่ (1) ประสิทธิภาพของการจำแนก โดยจะนำเสนอค่าความถูกต้อง (accuracy) (2) ความเสถียรของประสิทธิภาพ โดยพิจารณาจากสัมประสิทธิ์การแปรผัน (coefficient of variation: CV) และ (3) ดัชนีวัดประสิทธิภาพเชิงเวลา (time-efficiency index) โดยใช้เทคนิค XAI (feature permutation mean dropout loss) ผลการวิเคราะห์พบว่า ในด้านประสิทธิภาพในการจำแนก จำนวนตัวแปรต่อเนื่องมีความสำคัญสูงสุด (mean dropout loss = 0.110) รองลงมาคือ ขนาดตัวอย่าง (mean dropout loss = 0.103–0.101) ในด้านความเสถียรของประสิทธิภาพ ขนาดตัวอย่างมีความสำคัญสูงสุด (mean dropout loss = 0.090) ในด้านประสิทธิภาพเชิงเวลา ขนาดตัวอย่างมีความสำคัญสูงสุด (mean dropout loss = 1.563) ตามด้วยอัลกอริทึมในการปรับแต่ง (mean dropout loss = 1.456) ตอนที่ 2 เป็นการสังเคราะห์ผลการวิจัยเพื่อนำเสนอแนวทางการเลือกใช้อัลกอริทึมและการกำหนดขอบเขตการค้นหาที่เหมาะสมตามลักษณะของข้อมูล พบว่า (1) กรณีต้องการค่าความถูกต้องสูงควรเลือก BO หรือ HPB ร่วมกับ RF หรือ SVM (kernel = radial) โดยใช้พื้นที่การค้นหาเฉพาะไฮเปอร์พารามิเตอร์ที่สำคัญ (importance) (2) กรณีต้องการความคุ้มค่าระหว่างประสิทธิภาพและเวลา ควรเลือก PSO ร่วมกับ RF และใช้พื้นที่การค้นหาโดยใช้ไฮเปอร์พารามิเตอร์ทั้งหมด (all) และ (3) กรณีต้องการทั้งความแม่นยำและความเสถียร ควรเลือก BO ร่วมกับ SVM (kernel = linear) โดยใช้พื้นที่การค้นหาแบบ all

Other Abstract (Other language abstract of ETD)

This study aims to (1) analyze factors influencing the performance of hyperparameter tuning in classification models using Random Forest (RF) and Support Vector Machine (SVM) algorithms, and (2) propose guidelines for selecting appropriate optimization algorithms and defining hyperparameter search spaces based on data characteristics. The study is divided into two parts. Part 1 involves Monte Carlo simulations to generate datasets under varying conditions: (1) sample sizes (50, 200, 500), (2) numbers of continuous variables (3, 5, 7), (3) levels of predictor influence (high, medium), (4) relationships among variables (linear, nonlinear), and (5) hyperparameter search spaces (all, importance). Hyperparameter tuning was conducted using four algorithms: Bayesian Optimization (BO), Genetic Algorithm (GA), Hyperband (HPB), and Particle Swarm Optimization (PSO). Model performance was evaluated based on three criteria: (1) classification performance (accuracy), (2) stability (coefficient of variation: CV), and (3) time-efficiency index. The XAI technique (feature permutation mean dropout loss) was used to interpret feature importance. Results showed that, for classification accuracy, the number of continuous variables was the most important factor (mean dropout loss = 0.110), followed by sample size (mean dropout loss = 0.103–0.101). For performance stability, sample size was the most influential factor (mean dropout loss = 0.090). For time efficiency, sample size again had the greatest impact (mean dropout loss = 1.563), followed by the tuning algorithm (mean dropout loss = 1.456). Part 2 synthesizes the findings to propose guidelines for algorithm and search space selection based on data characteristics. It was found that: (1) to maximize accuracy, BO or HPB combined with RF or SVM (radial kernel) and an importance-based search space should be used ; (2) for a balance between accuracy and time efficiency, PSO combined with RF and an all-inclusive search space is recommended ; and (3) for both accuracy and stability, BO combined with SVM (linear kernel) using an all-inclusive search space is most suitable.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.