Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A machine-learning based approach for evaluating personally identifiable information transmission from online privacy policies

Year (A.D.)

2019

Document Type

Thesis

First Advisor

กุลวดี ศรีพานิชกุลชัย

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมซอฟต์แวร์

DOI

10.58837/CHULA.THE.2019.1264

Abstract

โมไบล์เเอปพลิเคชันในปัจจุบันได้ขอเข้าถึงข้อมูลของผู้ใช้บริการเพื่อที่จะนำข้อมูลเหล่านี้ไปพัฒนาการให้บริการ เช่น ข้อมูลส่วนตัว อีเมล ซึ่งการนำข้อมูลเหล่านี้ไปใช้มีทั้งจุดประสงค์ในการใช้ข้อมูลในทางที่ดีเเละไม่ดี จึงเป็นเรื่องที่ผู้ใช้บริการควรตระหนักถึง ทั้งนี้ผู้ใช้บริการสามารถตรวจสอบรายละเอียดการนำข้อมูลไปใช้จากเเหล่งที่สามารถเข้าถึงได้ง่าย ได้เเก่ นโยบายความเป็นส่วนตัว เเต่เนื่องจากนโยบายความเป็นส่วนตัวมีข้อความที่ยาวเเละทำความเข้าใจได้ยาก ผู้ใช้บริการอาจพลาดส่วนสำคัญจากการอ่านนโยบายความเป็นส่วนตัวได้ ดังนั้นวิทยานิพนธ์นี้จึงได้ตั้งข้อสมมุติฐานเพื่อทำการพิสูจน์สมมุติฐานว่าการประเมินการส่งผ่านข้อมูลส่วนตัวของเเอปพลิเคชันสามารถวิเคราะห์ได้จากข้อความในนโยบายความเป็นส่วนตัวหรือไม่ โดยการใช้การเรียนรู้ด้วยเครื่องเข้ามาช่วยเพื่อที่จะประเมินการส่งผ่านของข้อมูลส่วนตัวเเทนการอ่านจากนโยบายความเป็นส่วนตัว

Other Abstract (Other language abstract of ETD)

Mobile applications frequently request private information from users, supposedly to improve their services and applications. The collected data, such as personally identifiable information, raises users’ concerns since some applications actually have malicious intentions to leak personal data. Privacy policies are an important resource as they are the sole source of information users can use to determine how applications plan to collect and use their data that is easily accessible prior to downloading and using the application. However, users tend to ignore or gloss over privacy policies as they are often written in complicated hard-to-understand language. Thus, users may miss crucial privacy-related information after reading such documents. In this thesis, we experimentally determine how much we can trust an application’s privacy policy by looking at the language used in more than 8,000 privacy policies and compare them to what applications actually do. We classify whether or not applications transmit privacy-related information using machine learning with three classifiers, support vector machines (SVM), k-nearest neighbors (KNN), and logistic regression (LR).

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.