Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การจำแนกโปรแกรมไม่พึงประสงค์ในแอนดรอยด์จากรหัสไบนารีด้วยวิธีการรวมกลุ่มพร้อมการวนซ้ำเพื่อกำจัดฟีเจอร์
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Krerk Piromsopa
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Computer Science
DOI
10.58837/CHULA.THE.2023.894
Abstract
In response to the burgeoning Android market and the concurrent proliferation of both applications and malware, we propose a direct analysis approach to classify Android malware by examining bytecode extracted from DEX files. The prevalent use of obfuscation techniques by malicious actors underscores the need for robust methods to detect and analyze malware. Leveraging the frequency of bi-gram and tri-gram patterns within the bytecode, we employ recursive feature elimination with TF-IDF, alongside XGB, RF, and voting classifiers, to enhance detection capabilities. Our study, conducted using the CICAndMal2017 dataset, highlights the effectiveness of this approach, with XGB classifier utilizing the top 4096 tri-gram features achieving an impressive F1-score of 93.56% for Android malware detection. This research contributes to the advancement of malware detection methodologies, offering a promising avenue for mitigating the growing threat landscape in the Android ecosystem.
Other Abstract (Other language abstract of ETD)
เพื่อตอบสนองต่อการขยายตัวของตลาดแอนดรอยด์และความแพร่หลายของทั้งโปรแกรมประยุกต์และโปรแกรมไม่พึงประสงค์ เราจึงเสนอแนวทางการวิเคราะห์โปรแกรมแอนดรอยด์ที่ไม่พึงประสงค์โดยการพิจารณารหัสไบต์ที่ดึงจากไฟล์ DEX เนื่องจากการใช้ Obfuscation เทคนิคที่มีอยู่มากมายโดยผู้ไม่ประสงค์ดีทำให้ความจำเป็นของวิธีการในการตรวจจับและวิเคราะห์โปรแกรมไม่พึงประสงค์มีมากยิ่งขึ้น ด้วยการใช้ความถี่ของ bi-gram และ tri-gram ที่ได้จากรูปแบบของรหัสไบต์ เราใช้การวนซ้ำเพื่อตัด Feature ด้วย TF-IDF ควบคู่ไปกับ XGB, RF และ Voting เป็นตัวจำแนก เพื่อเพิ่มความสามารถในการตรวจจับ การศึกษาของเราทำโดยใช้ชุดข้อมูล CICAndMal2017 โดยการใช้ XGB เป็นตัวจำแนก และ tri-gram 4096 ตัวที่มีค่า TF-IDF สูงสุด ได้ค่า F1-Score สูงถึง 93.56% สำหรับการตรวจจับโปรแกรมแอนดรอยด์ไม่พึงประสงค์ งานวิจัยนี้ได้มีส่วนร่วมในการพัฒนาวิธิการตรวจจับโปรแกรมไม่พึงประสงค์ ในการเสนอแนวทางที่มีส่วนในการลดภัยคุกคามที่เพิ่มขึ้นในระบบนิเวศของแอนดรอยด์
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Tippayasem, Nawa, "Classification of android malware from binary code using ensemble method with recursive feature elimination" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11943.
https://digital.car.chula.ac.th/chulaetd/11943