Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Processes and screening models for data quality management in a crowdsourcing platform
Year (A.D.)
2022
Document Type
Thesis
First Advisor
เอกพล ช่วงสุวนิช
Second Advisor
โปรดปราน บุณยพุกกณะ
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมคอมพิวเตอร์
DOI
10.58837/CHULA.THE.2022.860
Abstract
การเก็บรวบรวมข้อมูลด้วยคราวด์ซอร์สซิงเป็นวิธีที่โดยทั่วไปมีความเร็วมากกว่า มีต้นทุนต่ำกว่า และมีความหลากหลายมากกว่าวิธีการเก็บรวบรวมข้อมูลแบบอื่น ๆ อย่างไรก็ตาม คราวด์ซอร์สซิงอาจเผชิญกับปัญหาคุณภาพ เช่น การติดป้ายกำกับผิดหรือการนำมาใช้ในทางที่ไม่เหมาะสม ดังนั้น กระบวนการควบคุมคุณภาพเป็นสิ่งที่จำเป็นสำหรับแพลตฟอร์มคราวด์ซอร์สซิง วิทยานิพนธ์นี้ศึกษาค้นคว้าอุปสรรคและวิธีการแก้ไขที่เป็นไปได้ในการจัดการคุณภาพของผู้ใช้งานแพลตฟอร์มคราวด์ซอร์สซิง ส่วนแรกเน้นวิธีการเพิ่มกระบวนการในคราวด์ซอร์สซิง โดยศึกษา 3 วิธี ได้แก่ 1. งานที่จำเป็นต้องทำก่อน 2. คำถามมาตรฐานแบบทองคำ และ 3. การทำซ้ำของข้อมูล พบว่างานที่จำเป็นต้องทำก่อนเป็นสิ่งจำเป็นเพื่อคัดกรองให้ได้ผู้ปฏิบัติงานที่มีคุณภาพสูง โดยควรเน้นไปที่ลักษณะเฉพาะและรายละเอียดของงาน คำถามที่ตรวจสอบความสอดคล้องระหว่างงานดีกว่าคำถามแบบชัดเจนในการตรวจสอบด้วยคำถามมาตรฐานทองคำ ผู้ตรวจสอบข้อมูลคนเดียวอาจนำไปสู่การปรับปรุงคุณภาพข้อมูลได้มากที่สุด ส่วนที่สองคือ การใช้แบบจำลองการเรียนรู้ของเครื่องที่ใช้ข้อมูลพฤติกรรมในการทำนายคุณภาพของข้อมูล ซึ่งวิธีนี้ยังช่วยคัดกรองข้อมูลคุณภาพต่ำออกไปได้โดยไม่เสียทรัพยากรเพิ่มเติม
Other Abstract (Other language abstract of ETD)
Crowdsourcing is generally a faster, more cost-effective, and diverse method of data collection. However, crowdsourcing might suffer from quality issues such as mislabeling or abuse. Thus, a quality control process is necessary for any crowdsourcing platform. This thesis explores the challenges and possible solutions in user quality management for crowdsourcing platforms. The first part focuses on augmenting the crowdsourcing process. Three aspects were studied: 1. Job Prerequisites, 2. Gold Standard Questions, and 3. Data Redundancy. I have found that job prerequisites are necessary to screen for high-quality workers, and emphasis should be put on the task specifics. Questions that check for consistency between tasks are better than obvious questions as a gold standard question. A single data validator may yield most of the improvement in data quality. The second part is about using mchine learning models that utilize behavioral data to predict the quality of data. This approach can also help screen out low-quality data witout requiring additional resources.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
กังวาลพงศ์พันธุ์, กฤตย์, "กระบวนการและแบบจำลองสำหรับการคัดกรองเพื่อการจัดการคุณภาพข้อมูลในคราวด์ซอร์สซิงแพลตฟอร์ม" (2022). Chulalongkorn University Theses and Dissertations (Chula ETD). 6570.
https://digital.car.chula.ac.th/chulaetd/6570