Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

An evaluation of anonymized models and ensemble classifiers

Year (A.D.)

2017

Document Type

Thesis

First Advisor

เกริก ภิรมย์โสภา

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2017.1262

Abstract

งานวิจัยชิ้นนี้ประเมินและวิเคราะห์ประสิทธิภาพของโมเดลความปลอดภัยในการปกปิดข้อมูลและกลุ่มตัวจำแนกประเภทในการจำแนกประเภทชนิดต่างๆ ในปัจจุบันการทำเหมืองข้อมูลถูกใช้งานอย่างต่อเนื่องในจุดประสงค์ต่างๆเพื่อหาองค์ความรู้ การทำเหมืองข้อมูลจำเป็นที่จะต้องคำนึงถึงความเป็นส่วนตัวของข้อมูลที่ใช้สอนโดยที่จะต้องป้องกันไม่ให้สามารถระบุตัวตนข้อมูลในชุดข้อมูลนั้นได้ การปกปิดข้อมูลถูกคิดค้นขึ้นมาโดยมีจุดประสงค์ที่ต้องการจะลดอัตราความเสี่ยงจากการถูกระบุตัวตน อย่างไรก็ตามการปกปิดข้อมูลถูกใช้งานคุณภาพของชุดข้อมูลก็จะลดลง ดังนั้นเราจำเป็นที่จะต้องคำนึงถึงสมดุลระหว่างความปลอดภัยของข้อมูลในการถูกระบุตัวตนและคุณภาพของชุดข้อมูล จุดประสงค์ของงานวิจัยชิ้นนี้คือทำการประเมินผลกระทบของการจำแนกประเภทด้วยข้อมูลที่ถูกปกปิดและประเมินประสิทธิภาพของโมเดลความปลอดภัยและอัลกอริทึ่มกลุ่มตัวจำแนกประเภทต่างๆ มาตรวัดที่จะใช้ในการทดลองคือ ความแม่นยำของการจำแนกประเภท อัตราความเสี่ยงจากการถูกระบุตัวตน และ จำนวนข้อมูลที่ถูกลบ จากผลลัพธ์ที่ได้จากการทดลองสามารถสรุปได้ว่าความแม่นยำของการจำแนกประเภทระหว่างข้อมูลดั้งเดิมและข้อมูลที่ถูกปกปิดไม่ได้แตกต่างกันอย่างมีนัยยะสำคัญ

Other Abstract (Other language abstract of ETD)

We evaluate the performance of privacy models and ensemble classification algorithms for data anonymization on classification. Data mining is continuously used in various purposes to extract knowledge. It is necessary for us to concern about privacy to prevent the result from disclosing identity of persons. Data anonymization has emerged with the objective of reducing re-identification risk. However, when data anonymization is applied, the data utility may decrease. Therefore, it is necessary to trade-off between privacy risks and the data utility. Our objectives in this research are to evaluate the effects of data classification with anonymized data and to evaluate the performance of various privacy models and ensemble classification algorithms. The measurement metrics in this experiment are accuracy, re-identification risk and suppressed records. Our experiments show that there is no significant difference between the accuracy of classification using original data and the accuracy of classification using anonymized data. In addition, the average accuracy of each algorithm is not significantly different.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.