Chulalongkorn University Theses and Dissertations (Chula ETD)
การประยุกต์ใช้ซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่งบนข้อมูลแบบหลายฉลากโดยใช้สปาร์ค
Other Title (Parallel Title in Other Language of ETD)
Application of One-Versus-One Support Vector Machines to Classify Multi-Label Datasets Using Spark
Year (A.D.)
2016
Document Type
Thesis
First Advisor
พีรพล เวทีกูล
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2016.823
Abstract
การจำแนกข้อมูลแบบหลายฉลาก เป็นวิธีการที่มีการใช้ความรู้ที่มีอยู่ก่อนหน้าในการจำแนกข้อมูล โดยในหนึ่งตัวอย่างนั้นสามารถปรากฏได้ในหลายกลุ่มข้อมูล ในกรณีของวิธีซัพพอร์ตเวคเตอร์แมชชีน วิธีการจำแนกแบบหนึ่งต่อทั้งหมดนั้นเป็นที่นิยมอย่างมากในการแก้ปัญหา อย่างไรก็ตาม วิธีการนี้มีข้อจำกัดในเรื่องของความแม่นยำในการทำนาย เพราะวิธีการนี้มักจะเกิดปัญหาเรื่องความไม่สมดุลของข้อมูลเสมอ วิธีจำแนกแบบหนึ่งต่อหนึ่งกำลังเป็นที่น่าสนใจเนื่องมาจากมีงานวิจัยจำนวนน้อยที่ได้นำเอาวิธีนี้ประยุกต์ใช้งานในงานด้านการจำแนกแบบหลายฉลาก แม้ว่าวิธีนี้จะได้รับการพิสูจน์ว่ามีประสิทธิภาพในการจำแนกมากกว่าวิธีหนึ่งต่อทั้งหมดในงานด้านการจำแนกแบบหลายประเภท อย่างไรก็ตาม วิธีนี้จำเป็นต้องใช้ระยะเวลาในการประมวลผลเป็นอย่างมาก เมื่อทำการทดลองกับข้อมูลที่มีจำนวนของกลุ่มข้อมูลเป็นจำนวนมาก งานวิจัยชิ้นนี้ได้เสนอวิธีการที่ใช้ในการแก้ปัญหางานด้านการจำแนกแบบหลายฉลากด้วยการประยุกต์ใช้งานวิธีการจำแนกแบบหนึ่งต่อหนึ่ง ซึ่งได้ทำการแก้ไขปัญหาความไม่สมดุลของข้อมูลที่เกิดขึ้นด้วยวิธีอันเดอร์แซมพลิ่ง และทำการประยุกต์ใช้งานระบบประมวลผลแบบกระจายสปาร์คด้วยวิธีการแบ่งงานออกเป็นหลาย ๆ ส่วนและทำการกระจายงานเพื่อให้งานแต่ละส่วนทำงานพร้อมกัน ซึ่งระบบนี้สามารถเพิ่มความเร็วในการประมวลผลให้กับวิธีซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่ง ในขณะที่ยังสามารถคงประสิทธิภาพในการจำแนกข้อมูลไว้ได้แม้ว่าจะใช้งานร่วมกับชุดข้อมูลที่มีกลุ่มข้อมูลจำนวนมากก็ตาม งานวิจัยนี้ได้ทำการทดลองกับข้อมูลแบบหลายฉลากพื้นฐาน 6 ชุดข้อมูล ซึ่งผลของการทดลองนั้นแสดงให้เห็นว่าระบบที่ผู้วิจัยเสนอนั้นสามารถลดระยะเวลาประมวลผลของการใช้วิธีการจำแนกแบบหนึ่งต่อหนึ่งเป็นอย่างมาก ในขณะที่มีประสิทธิภาพในการจำแนกสูงกว่าวิธีการจำแนกแบบหนึ่งต่อทั้งหมดอีกด้วย
Other Abstract (Other language abstract of ETD)
Multi-label classification is a supervised learning, where one example can belong to several classes. In the case of Support Vector Machine (SVM), One-versus-All (OVA) is the most common approach to tackle this problem. However, the accuracy is very limited due to extremely imbalanced training set. It is interesting that there have been only very few works that applied One-versus-One (OVO) in the multi-label domain even though it has been shown to provide better accuracy than OVA in the multiclass domain. Anyway, OVO requires an extremely high computational cost when there is a large number of labels. This research propose a multi-label classification framework that employs OVO incorporating with the undersampling, technique to alleviate the imbalanced issue. Spark framework along with a mechanism was applied to split a job to a set of small jobs and then processed them in parallel. The framework can induce OVO SVMs very fast, while maintaining the prediction accuracy even though, there is a large number of classes. The experiment was conducted on 6 standard multi-label datasets. The result indicate that our framework can really reduce computing time on Spark environment, while significantly outperforms OVA in terms of F1 on all data.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
แดงด้วง, สุทธิพงษ์, "การประยุกต์ใช้ซัพพอร์ตเวคเตอร์แมชชีนแบบหนึ่งต่อหนึ่งบนข้อมูลแบบหลายฉลากโดยใช้สปาร์ค" (2016). Chulalongkorn University Theses and Dissertations (Chula ETD). 70622.
https://digital.car.chula.ac.th/chulaetd/70622