Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

DEVELOPMENT OF TEXT BASE CAPTCHA ANALYSIS FRAMEWORK

Year (A.D.)

2017

Document Type

Thesis

First Advisor

เกริก ภิรมย์โสภา

Second Advisor

อัครินทร์ ไพบูลย์พานิช

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิทยาศาสตร์คอมพิวเตอร์

DOI

10.58837/CHULA.THE.2017.1267

Abstract

งานวิจัยนี้เสนอกรอบการประเมินและวิเคราะห์แคปช่าแบบตัวอักษร การใช้อินเทอร์เน็ตเพื่อค้นหาข้อมูล ช้อปปิ้งออนไลน์ หรือทำธุรกรรมการเงินผ่านอินเทอร์เน็ตแบงค์กิ้ง บริการเหล่านี้ต้องการการรักษาความปลอดภัยเพื่อปกป้องข้อมูลส่วนบุคคลที่เป็นความลับจาก สแปม การหลอกลวงจากแฮกเกอร์ที่สร้างเว็บปลอม แคปช่าได้ถูกนำมาใช้เพื่อตรวจสอบว่าผู้ใช้เป็นมนุษย์หรือจักรกล (บ็อท) เว็บไซต์จำนวนมากใช้แคปช่าแบบตัวอักษรสำหรับตรวจสอบพิสูจน์ตัวตนโดยให้ผู้ใช้พิมพ์ตัวอักษรตามอักขระบิดเบือนเป็นตัวอักษรหรือตัวเลขหรือตัวอักษรและตัวเลขในช่องข้อความ ในการทดลองผู้วิจัยกำหนดความยาวของแคปช่าแบบตัวอักษรโดยกำหนดความยาวอักษรที่ 3, 4, 5, 6, 7, 8, 9 และ 10 ที่มีรูปแบบเป็นภาษาอังกฤษตัวใหญ่ผสมตัวเลข ผู้วิจัยทำการเก็บรูปแคปช่าตามความยาวของแต่ละแบบจำนวนอย่างละ 1,000 รูป จากเว็บไซต์ BotDetect™ CAPTCHA เพื่อให้มนุษย์ทำแบบทดสอบผ่านเว็บไซต์ที่สร้างและจักรกล (บ็อท) Tesseract และ Free-OCR online ตอบรูปแคบช่าโดยชุดแคปช่าที่ใช้ทดสอบระหว่างมนุษย์และบ็อทใช้เป็นแบบทดสอบชุดเดียวกัน ผู้ทดสอบ 1 คน จะทำแบบทดสอบ 8 ข้อ ผู้วิจัยนำเสนอประสิทธิภาพแคปช่า (CAPTCHA EFFICIENCY (CE)) ที่ได้จากการตอบแคปช่าของมนุษย์และบ็อทมาคำนวณหาส่วนต่างระหว่างแคปช่าที่ดี (มนุษย์ตอบถูกและบ็อทตอบผิด) และแคปช่าที่ไม่ดี(บ็อทตอบถูกและมนุษย์ตอบผิด) สำหรับการประเมินผลเราประเมินผลจากความยาวตัวอักษรและตัวเลขจาก 3 4 5 6 7 8 9 และ 10 ผลที่ได้แสดงให้เห็นว่ามนุษย์ และ บ็อท Tesseract มีค่า CE เท่ากับ 0.842 ที่ความยาว 9 ตัวอักษร Human และ Free-OCR.com มี CE เท่ากับ 0.921 ที่ความยาว 4 ตัวอักษร

Other Abstract (Other language abstract of ETD)

This research proposes a framework for Text Base Captcha Analysis. We use internet for searching information, online shopping or Internet banking, everyday. These services require security to protect the confidential personal information from SPAM, Phishing or Pharming. CAPTCHA is used to verify whether a user is a human or a bot. Many websites use Text Based CAPTCHA for validation. CAPTCHA works by letting users' type distortion characters, alpha or numeric or alphanumeric, in a textbox. In our experiment, we defined the length of CAPTCHA for our survey to be: 3, 4, 5, 6, 7, 8, 9 and 10 with Capital letter and numeric image Style. We collected 1,000 images for each length from BotDetectTM CAPTCHA. Tesseract and Free-OCR online are used to represent BOTs in our experiment. We designed the survey CAPTCHA for a person to solve 8 random images. Human and BOT has to take the same survey for fairness. We propose the use of CAPTCHA EFFICIENCY (CE), the difference between human and bot in answering CAPTCHA, for evaluation. We evaluate alphanumeric lengths from 3, 4, 5, 6, 7, 8, 9 and 10. The result shows that Human and Tesseract OCR bot has CE of 0.842 at 9 characters long. Human and Free-OCR.com has CE of 0.921 in 4 characters long.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.