Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Extrinsic plagiarism detection in academic texts using a support vector machine model and text similarity measurement
Year (A.D.)
2017
Document Type
Thesis
First Advisor
วิโรจน์ อรุณมานะกุล
Faculty/College
Faculty of Arts (คณะอักษรศาสตร์)
Department (if any)
Department of Linguistics (ภาควิชาภาษาศาสตร์)
Degree Name
อักษรศาสตรดุษฎีบัณฑิต
Degree Level
ปริญญาเอก
Degree Discipline
ภาษาศาสตร์
DOI
10.58837/CHULA.THE.2017.1165
Abstract
งานวิจัยชิ้นนี้มีวัตถุประสงค์ 4 ประการ ประการแรกคือ เพื่อวิเคราะห์หาลักษณ์ทางภาษาที่จะใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอก ประการต่อมาคือ เพื่อพัฒนาระบบต้นแบบสำหรับตรวจเทียบภายนอกหาการลักลอกงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ ประการที่ 3 คือ เพื่อประเมินประสิทธิภาพของระบบต้นแบบที่พัฒนาขึ้นใน 2 แง่มุม ได้แก่ ความเหมาะสมของลักษณะของข้อมูลรับเข้าที่จะใช้ในระบบ และความเหมาะสมของลักษณ์ที่ใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอก และประการสุดท้ายคือ เพื่อเปรียบเทียบวิธีวัดค่าความละม้ายของข้อความที่มีประสิทธิภาพ เหมาะสมจะนำมาใช้ระบบตรวจหาการลักลอกมากที่สุด ในด้านการดำเนินการวิจัย การศึกษาครั้งนี้ได้เพิ่มขั้นตอนเพื่อศึกษาเกี่ยวกับกลวิธีลักลอกงานวิชาการภาษาไทย โดยเก็บข้อมูลจากการจำลองสถานการณ์การลักลอกแล้วนำมาวิเคราะห์ด้วยแนวคิดทางภาษาศาสตร์ ผลจากการศึกษาในขั้นนี้ได้ถูกนำมาใช้ประโยชน์ในการออกแบบและสร้างคลังข้อมูล ตลอดจนนำมาใช้อ้างอิงในการอภิปรายข้อค้นพบในขั้นต่อไป นอกจากนี้ ยังมีการออกแบบ สร้าง และตรวจสอบคุณภาพของคลังข้อมูลด้วยความรอบคอบและรัดกุม เพื่อให้ผลการศึกษาที่ได้มาในตอนท้ายมีความหนักแน่นน่าเชื่อถือ ผลการศึกษาในด้านการวิเคราะห์หาลักษณ์ทางภาษาสำหรับใช้ในการจำแนกประเภทข้อความที่มีการลักลอกและไม่มีการลักลอกปรากฏว่า สามารถวิเคราะห์หาลักษณ์ทางภาษาโดยอาศัยความรู้ทางภาษาศาสตร์มาประยุกต์เข้ากับวิธีการทางการประมวลภาษาธรรมชาติได้ทั้งหมด 51 ลักษณ์ ซึ่งแบ่งเป็นลักษณ์ทางศัพท์ 25 ลักษณ์ ลักษณ์ทางวากยสัมพันธ์ 23 ลักษณ์ ลักษณ์ทางความหมาย 2 ลักษณ์ และลักษณ์ทางวากยสัมพันธ์และความหมาย 1 ลักษณ์ ส่วนผลการศึกษาในด้านการประเมินประสิทธิภาพของระบบต้นแบบที่พัฒนาขึ้นนั้น ในแง่การประเมินประสิทธิภาพของระบบเมื่อใช้ข้อมูลรับเข้าที่ต่างกันปรากฏว่า เมื่อทดสอบการจำแนกประเภทข้อมูลการลักลอกทุกประเภทแล้ว ข้อมูลรับเข้าประเภทย่อหน้ามีความเหมาะสมที่ใช้ในระบบมากกว่าข้อมูลรับเข้าประเภทหน่วยปริจเฉทพื้นฐาน ส่วนในแง่การประเมินประสิทธิภาพของลักษณ์ ปรากฏว่าลักษณ์ที่ให้ประสิทธิภาพสูงที่สุดเป็นลักษณ์ทางศัพท์ คือลักษณ์ค่าสัมประสิทธิ์ความละม้ายโซเรนเซน-ไดซ์ของไบแกรมของคำ (F = 0.9870) และเมื่อพิจารณาผลในภาพรวมแล้ว พบว่าลักษณ์ทางศัพท์และลักษณ์ทางอักขระให้ประสิทธิภาพสูงกว่าลักษณ์ทางวายสัมพันธ์และลักษณ์ทางความหมาย ทั้งนี้ สาเหตุหลักเป็นเพราะลักษณ์ทางศัพท์และลักษณ์ทางอักขระเป็นการแทนรูปคำและอักขระที่ชัดเจน ในขณะที่ลักษณ์ทางวากยสัมพันธ์และลักษณ์ทางความหมายเป็นการแทนรูปความสัมพันธ์ของหน่วยทางภาษาซึ่งมีความเป็นนามธรรมกว่า ส่วนผลการเปรียบเทียบประสิทธิภาพของวิธีวัดค่าความละม้ายของข้อความ พบว่าค่าบรรทัดฐานของลำดับย่อยร่วมยาวสุดที่ยาวที่สุดของคำสามารถให้ค่าความละม้ายได้สอดคล้องกับค่าความละม้ายที่ให้โดยผู้เชี่ยวชาญทางภาษาไทยมากที่สุด (r = 0.9124) จึงถือว่าเป็นวิธีวัดค่าความละม้ายของข้อความที่มีประสิทธิภาพ สามารถนำมาใช้แทนการระบุค่าความละม้ายโดยมนุษย์ในระบบตรวจหาการลักลอกได้ สาเหตุที่ผลปรากฏเป็นเช่นนี้อาจเป็นเพราะผู้เชี่ยวชาญพิจารณาความละม้ายของข้อความจากลำดับของรูปคำเช่นเดียวกับวิธีการวัดค่าความละม้ายข้างต้น
Other Abstract (Other language abstract of ETD)
This research is based on 4 objectives: first, to analyze the linguistic features used to classify plagiarized text and non-plagiarized text. The next is to develop a prototype system for extrinsic academic plagiarism detecting using a support vector machine model and text similarity measurement. The third is to evaluate the effectiveness of the prototype system developed in 2 aspects: the suitability of the input characteristics to be used in the system and the suitability of the features used to classify plagiarized text and non-plagiarized text. And lastly, to compare the effectiveness of the text similarity measurement methods for use in the system. In conducting this research, the analysis of plagiarism strategies in Thai academic texts, which collect data from the simulated plagiarism situation and analyzed them with linguistic concepts, is added in the research phase. The results of this analysis were used to design and construct a corpus. In addition, to make the final findings more credible, a corpus used for this research is also designed, created, and validated with care and circumspection. The result of the analysis of linguistic features used to classify plagiarized text and non-plagiarized text shows that all 51 linguistic features are analyzed, based on linguistic knowledge applied to the methods of natural language processing, including 25 lexical features, 23 syntactic features, 2 semantic features, and 1 syntactic and semantic features. For the results of the study on the effectiveness evaluation of the developed prototype system, in terms of the effectiveness of the input data, it is found that, when testing the classification of all types of plagiarized data, paragraph type input was more appropriate for the system than EDU type input. In terms of effectiveness of the features, it appears that the most effective feature is lexical feature i.e. Sørensen–Dice similarity coefficient of word bigram (F = 0.9870). Considering the overall results, lexical features and character features are more effective than syntactic features and semantic features. The main reason is that the lexical features and character features are derived from the representation of word and character form that is more tangible than syntactic features and semantic features, which derived from the representation of the linguistic relations. And for the results of effectiveness evaluation of the text similarity measurement methods, it is found that the normalized longest common subsequence of word can calculated similarity correlated with Thai language experts the most (r = 0.9124). The reason for this may be because the experts consider the similarity of texts from the sequence of words, as well as the method of the normalized longest common subsequence of word.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
แต่รุ่งเรือง, ศุภวัจน์, "การตรวจเทียบภายนอกหาการลักลอกในงานวิชาการโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีนและการวัดค่าความละม้ายของข้อความ" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 1655.
https://digital.car.chula.ac.th/chulaetd/1655