Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Processes and screening models for data quality management in a crowdsourcing platform

Year (A.D.)

2022

Document Type

Thesis

First Advisor

เอกพล ช่วงสุวนิช

Second Advisor

โปรดปราน บุณยพุกกณะ

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2022.860

Abstract

การเก็บรวบรวมข้อมูลด้วยคราวด์ซอร์สซิงเป็นวิธีที่โดยทั่วไปมีความเร็วมากกว่า มีต้นทุนต่ำกว่า และมีความหลากหลายมากกว่าวิธีการเก็บรวบรวมข้อมูลแบบอื่น ๆ อย่างไรก็ตาม คราวด์ซอร์สซิงอาจเผชิญกับปัญหาคุณภาพ เช่น การติดป้ายกำกับผิดหรือการนำมาใช้ในทางที่ไม่เหมาะสม ดังนั้น กระบวนการควบคุมคุณภาพเป็นสิ่งที่จำเป็นสำหรับแพลตฟอร์มคราวด์ซอร์สซิง วิทยานิพนธ์นี้ศึกษาค้นคว้าอุปสรรคและวิธีการแก้ไขที่เป็นไปได้ในการจัดการคุณภาพของผู้ใช้งานแพลตฟอร์มคราวด์ซอร์สซิง ส่วนแรกเน้นวิธีการเพิ่มกระบวนการในคราวด์ซอร์สซิง โดยศึกษา 3 วิธี ได้แก่ 1. งานที่จำเป็นต้องทำก่อน 2. คำถามมาตรฐานแบบทองคำ และ 3. การทำซ้ำของข้อมูล พบว่างานที่จำเป็นต้องทำก่อนเป็นสิ่งจำเป็นเพื่อคัดกรองให้ได้ผู้ปฏิบัติงานที่มีคุณภาพสูง โดยควรเน้นไปที่ลักษณะเฉพาะและรายละเอียดของงาน คำถามที่ตรวจสอบความสอดคล้องระหว่างงานดีกว่าคำถามแบบชัดเจนในการตรวจสอบด้วยคำถามมาตรฐานทองคำ ผู้ตรวจสอบข้อมูลคนเดียวอาจนำไปสู่การปรับปรุงคุณภาพข้อมูลได้มากที่สุด ส่วนที่สองคือ การใช้แบบจำลองการเรียนรู้ของเครื่องที่ใช้ข้อมูลพฤติกรรมในการทำนายคุณภาพของข้อมูล ซึ่งวิธีนี้ยังช่วยคัดกรองข้อมูลคุณภาพต่ำออกไปได้โดยไม่เสียทรัพยากรเพิ่มเติม

Other Abstract (Other language abstract of ETD)

Crowdsourcing is generally a faster, more cost-effective, and diverse method of data collection. However, crowdsourcing might suffer from quality issues such as mislabeling or abuse. Thus, a quality control process is necessary for any crowdsourcing platform. This thesis explores the challenges and possible solutions in user quality management for crowdsourcing platforms. The first part focuses on augmenting the crowdsourcing process. Three aspects were studied: 1. Job Prerequisites, 2. Gold Standard Questions, and 3. Data Redundancy. I have found that job prerequisites are necessary to screen for high-quality workers, and emphasis should be put on the task specifics. Questions that check for consistency between tasks are better than obvious questions as a gold standard question. A single data validator may yield most of the improvement in data quality. The second part is about using mchine learning models that utilize behavioral data to predict the quality of data. This approach can also help screen out low-quality data witout requiring additional resources.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.