Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

กระบวนการทำความสะอาดตัวอย่างคลาสที่มีจำนวนมากและเพิ่มตัวอย่างคลาสที่มีจำนวนน้อยโดยใช้ความแปรปรวนของอัตราส่วนมวล

Year (A.D.)

2022

Document Type

Thesis

First Advisor

Krung Sinapiromsaran

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Department (if any)

Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Applied Mathematics and Computational Science

DOI

10.58837/CHULA.THE.2022.8

Abstract

A sampling method is one of the basic methods to deal with an imbalance problem appearing in machine learning. A dataset having an imbalance problem has a noticeably skewed distribution among different classes. There are three types of sampling techniques to solve this problem by balancing class distributions, undersampling technique, over-sampling technique, and combined sampling technique. In this research, the mass ratio variance scores of each data point of the same class are computed and used to remove noise from a majority class and synthesise instances from a minority class. The results of this proposed sampling technique improve recall over standard classifiers: a decision tree, a random forest, Linear SVM, and MLP on all synthesised datasets. Performances are reported on synthesised datasets and UCI datasets via three measures: Precision, Recall, and F1-score. Moreover, Wilcoxon signed-rank tests are used to confirm the improved performance.

Other Abstract (Other language abstract of ETD)

ขั้นตอนวิธีการสุ่มตัวอย่างเป็นหนึ่งในขั้นตอนวิธีพื้นฐานในการจัดการกับปัญหาคลาสไม่ได้ดุลซึ่งปรากฏในเซตข้อมูลการเรียนรู้ของเครื่อง ชุดข้อมูลที่มีปัญหาความไม่สมดุลจะมีการ กระจายของข้อมูลเบ้ไปยังกลุ่มใดกลุ่มหนึ่ง เทคนิคการสุ่มตัวอย่างมี 3 ประเภทซึ่งสามารถใช้ในการแก้ปัญหาคลาสไม่สมดุลได้โดยการปรับดุลของการกระจายตัวของคลาส ได้แก่ เทคนิคการสุ่มลดตัวอย่าง เทคนิคการสุ่มตัวอย่างเพิ่ม และเทคนิควิธีผสมรวมกันของทั้งเทคนิคการสุ่มลดตัวอย่างและเทคนิคการสุ่มตัวอย่างเพิ่ม ในวิทยานิพนธ์นี้คะแนนความแปรปรวนของอัตราส่วนมวลของแต่ละตัวอย่างจะถูกคำนวนแยกคลาส จากนั้นจะถูกใช้กำจัดข้อมูลรบกวนออกจากคลาสส่วนมากและทำการสังเคราะห์ตัวอย่างเพิ่มในคลาสส่วนน้อย ผลลัพธ์ของขั้นตอนวิธีสุ่มที่ถูกเสนอ ปรับปรุงค่ารีคอลให้ดีขึ้นโดยใช้ตัวจำแนกประเภทมาตรฐาน ต้นไม้ตัดสินใจ ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมทชีนแบบเชิงเส้นและ เพอร์เซ็ปตรอนหลายชั้นเหล่านี้ทดสอบกับชุดข้อมูลสังเคราะห์ การรายงานประสิทธิภาพบนชุดข้อมูลสังเคราะห์และชุดข้อมูล UCI ผ่านตัววัดประสิทธิภาพ 3 ตัวคือค่าความแม่นยำ ค่ารีคอลและ ค่าคะแนน F1 ที่ดีขึ้น การทดสอบ Wilcoxon ถูกใช้เพื่อยืนยันประสิทธิภาพที่ถูกปรับปรุงแล้ว

Included in

Mathematics Commons

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.