Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
DEVELOPMENT OF TEXT BASE CAPTCHA ANALYSIS FRAMEWORK
Year (A.D.)
2017
Document Type
Thesis
First Advisor
เกริก ภิรมย์โสภา
Second Advisor
อัครินทร์ ไพบูลย์พานิช
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิทยาศาสตร์คอมพิวเตอร์
DOI
10.58837/CHULA.THE.2017.1267
Abstract
งานวิจัยนี้เสนอกรอบการประเมินและวิเคราะห์แคปช่าแบบตัวอักษร การใช้อินเทอร์เน็ตเพื่อค้นหาข้อมูล ช้อปปิ้งออนไลน์ หรือทำธุรกรรมการเงินผ่านอินเทอร์เน็ตแบงค์กิ้ง บริการเหล่านี้ต้องการการรักษาความปลอดภัยเพื่อปกป้องข้อมูลส่วนบุคคลที่เป็นความลับจาก สแปม การหลอกลวงจากแฮกเกอร์ที่สร้างเว็บปลอม แคปช่าได้ถูกนำมาใช้เพื่อตรวจสอบว่าผู้ใช้เป็นมนุษย์หรือจักรกล (บ็อท) เว็บไซต์จำนวนมากใช้แคปช่าแบบตัวอักษรสำหรับตรวจสอบพิสูจน์ตัวตนโดยให้ผู้ใช้พิมพ์ตัวอักษรตามอักขระบิดเบือนเป็นตัวอักษรหรือตัวเลขหรือตัวอักษรและตัวเลขในช่องข้อความ ในการทดลองผู้วิจัยกำหนดความยาวของแคปช่าแบบตัวอักษรโดยกำหนดความยาวอักษรที่ 3, 4, 5, 6, 7, 8, 9 และ 10 ที่มีรูปแบบเป็นภาษาอังกฤษตัวใหญ่ผสมตัวเลข ผู้วิจัยทำการเก็บรูปแคปช่าตามความยาวของแต่ละแบบจำนวนอย่างละ 1,000 รูป จากเว็บไซต์ BotDetect™ CAPTCHA เพื่อให้มนุษย์ทำแบบทดสอบผ่านเว็บไซต์ที่สร้างและจักรกล (บ็อท) Tesseract และ Free-OCR online ตอบรูปแคบช่าโดยชุดแคปช่าที่ใช้ทดสอบระหว่างมนุษย์และบ็อทใช้เป็นแบบทดสอบชุดเดียวกัน ผู้ทดสอบ 1 คน จะทำแบบทดสอบ 8 ข้อ ผู้วิจัยนำเสนอประสิทธิภาพแคปช่า (CAPTCHA EFFICIENCY (CE)) ที่ได้จากการตอบแคปช่าของมนุษย์และบ็อทมาคำนวณหาส่วนต่างระหว่างแคปช่าที่ดี (มนุษย์ตอบถูกและบ็อทตอบผิด) และแคปช่าที่ไม่ดี(บ็อทตอบถูกและมนุษย์ตอบผิด) สำหรับการประเมินผลเราประเมินผลจากความยาวตัวอักษรและตัวเลขจาก 3 4 5 6 7 8 9 และ 10 ผลที่ได้แสดงให้เห็นว่ามนุษย์ และ บ็อท Tesseract มีค่า CE เท่ากับ 0.842 ที่ความยาว 9 ตัวอักษร Human และ Free-OCR.com มี CE เท่ากับ 0.921 ที่ความยาว 4 ตัวอักษร
Other Abstract (Other language abstract of ETD)
This research proposes a framework for Text Base Captcha Analysis. We use internet for searching information, online shopping or Internet banking, everyday. These services require security to protect the confidential personal information from SPAM, Phishing or Pharming. CAPTCHA is used to verify whether a user is a human or a bot. Many websites use Text Based CAPTCHA for validation. CAPTCHA works by letting users' type distortion characters, alpha or numeric or alphanumeric, in a textbox. In our experiment, we defined the length of CAPTCHA for our survey to be: 3, 4, 5, 6, 7, 8, 9 and 10 with Capital letter and numeric image Style. We collected 1,000 images for each length from BotDetectTM CAPTCHA. Tesseract and Free-OCR online are used to represent BOTs in our experiment. We designed the survey CAPTCHA for a person to solve 8 random images. Human and BOT has to take the same survey for fairness. We propose the use of CAPTCHA EFFICIENCY (CE), the difference between human and bot in answering CAPTCHA, for evaluation. We evaluate alphanumeric lengths from 3, 4, 5, 6, 7, 8, 9 and 10. The result shows that Human and Tesseract OCR bot has CE of 0.842 at 9 characters long. Human and Free-OCR.com has CE of 0.921 in 4 characters long.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ชัยกรไพบูลย์, สรรัตน์, "การพัฒนากรอบการประเมินและวิเคราะห์แคปช่าแบบข้อความ" (2017). Chulalongkorn University Theses and Dissertations (Chula ETD). 1757.
https://digital.car.chula.ac.th/chulaetd/1757