Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Classification of database technology problems in online question and answer community

Year (A.D.)

2021

Document Type

Thesis

First Advisor

ทวิตีย์ เสนีวงศ์ ณ อยุธยา

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมซอฟต์แวร์

DOI

10.58837/CHULA.THE.2021.960

Abstract

วิทยานิพนธ์นี้นำเสนอแนวทางการสร้างเครื่องมือการทำงานอัตโนมัติเพื่อจำแนกคำถามบนเว็บไซต์สแต็กโอเวอร์โฟลว์ โดยเฉพาะที่เกี่ยวกับชนิดของผลิตภัณฑ์ฐานข้อมูล ซึ่งถือเป็นข้อมูลที่มีค่าสำหรับเจ้าของผลิตภัณฑ์ฐานข้อมูลในการนำไปปรับปรุงผลิตภัณฑ์ หมวดหมู่ของคำถามกำหนดไว้เป็นสองระดับได้แก่ ระดับปัญหา และ ปัญหาย่อย โดยที่ระดับปัญหาประกอบด้วย การพัฒนา การติดตั้ง และ การปรับปรุงประสิทธิภาพ ในขณะที่ ปัญหาย่อย ประกอบด้วย การออกแบบ ข้อจำกัด และการอภิปรายปัญหา ด้วยการรวมทั้งสองระดับเข้าด้วยกัน คำถามจะถูกจำแนกออกเป็นเก้าหมวดของปัญหา-ปัญหาย่อย การประมวลผลภาษาธรรมชาติและการจำแนกข้อความถูกนำมาใช้ โดยใช้อัลกอริทึมการเรียนรู้ของเครื่องที่หลากหลาย โมเดลการจำแนกประเภทที่มีประสิทธิภาพดีที่สุดจะถูกนำมาใช้ในเว็บแอปพลิเคชัน เพื่อจำแนกแต่ละคำถามโดยใช้แท็กปัญหา-ปัญหาย่อย นอกจากนี้คำถามที่ถูกจำแนกออกตามหมวดแล้ว สามารถนำมาวิเคราะห์เพิ่มเติมโดยใช้อัลกอริทึมการสร้างแบบจำลองหัวข้อ เพื่อให้ทราบว่าคำถามในแต่ละหมวดนั้นกล่าวถึงหัวข้อใดบ้าง ซึ่งจะเป็นข้อมูลเพิ่มเติมให้กับเจ้าของผลิตภัณฑ์ฐานข้อมูลในการทำความเข้าใจถึงปัญหาของผลิตภัณฑ์เพื่อจะได้ทำการปรับปรุงต่อไป

Other Abstract (Other language abstract of ETD)

This thesis proposes an automated approach to classifying questions that are posted on Stack Overflow website with regard to a certain kind of database products in particular. Such information is valuable to database product owners for improving their products. The categories of questions are defined at two levels, i.e. problem and subproblem. The problem level includes development, installation, and performance tuning, while the subproblem level consists of design, limitation, and discussion. By cross-combining the two levels, questions can be classified into nine problem-subproblem classes. Natural language processing and text classification are used with several machine learning algorithms. The best classifier for all classes is used in a web application that can classify each question by a problem-subproblem tag. In addition, all classified questions are further analyzed by using a topic modeling algorithm to identify the topics that are addressed in those questions. This will be additional information for a database product owner to understand the issues of the database product for further improvement.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.