Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

A comparative study on the use of generative Als in task effort estimation inagile software projects

Year (A.D.)

2025

Document Type

Independent Study

First Advisor

ทวิตีย์ เสนีวงศ์ ณ อยุธยา

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิทยาศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมซอฟต์แวร์

DOI

10.58837/CHULA.IS.2025.46

Abstract

การประมาณค่าความพยายามในการพัฒนาซอฟต์แวร์เป็นขั้นตอนสำคัญที่ส่งผลต่อการวางแผนทรัพยากร เวลา และต้นทุนของโครงการ โดยเฉพาะในกระบวนการแอไจล์ที่ต้องประเมินซ้ำในรอบสั้น ๆ ขณะที่วิธีดั้งเดิมที่ใช้ประสบการณ์ผู้เชี่ยวชาญยังมีข้อจำกัด งานวิจัยนี้จึงเปรียบเทียบความแม่นและความสามารถในการเรียนรู้ของโมเดลปัญญาประดิษฐ์เชิงสร้างสรรค์สามรุ่น ได้แก่ ChatGPT-4, Gemini 1.5 และ Claude 3 โดยให้ประมาณค่าความพยายามจากข้อมูลงานจริง 100 รายการใน Jira ภายใต้ 4 เงื่อนไขคือ การสอบถามแบบไม่ให้ตัวอย่างนำ การให้ตัวอย่างจากบริบทการพัฒนา การให้ตัวอย่างจากข้อมูลงานในอดีต และการเปรียบเทียบระหว่างงานพัฒนาใหม่กับงานแก้ไข/บำรุงรักษา ผลการทดลองพบว่า Gemini 1.5 มีค่าคลาดเคลื่อนน้อยที่สุดในทุกสภาวะ ขณะที่ ChatGPT-4 แม้จะคลาดเคลื่อนสูงกว่าแต่สามารถปรับปรุงผลลัพธ์ได้มากเมื่อได้รับข้อมูลเชิงปริมาณจากงานที่ผ่านมา ส่วน Claude 3 ให้ผลลัพธ์ระดับปานกลาง และการประมาณของงานสองประเภทไม่แตกต่างกันอย่างมีนัยสำคัญ แต่กลุ่มงานแก้ไข/บำรุงรักษามีความผันผวนสูงกว่าเล็กน้อย โดยเฉพาะใน ChatGPT-4 และ Claude 3 โดยสรุป โมเดลทั้งสามสามารถสนับสนุนการประมาณค่าความพยายามได้ แต่ยังมีอัตราคลาดเคลื่อนสูงพอควร และคุณภาพของบริบทกับข้อมูลประวัติเป็นปัจจัยสำคัญ Gemini 1.5 เหมาะเป็นโมเดลพื้นฐานที่เสถียร ส่วน ChatGPT-4 และ Claude 3 เด่นด้านการวิเคราะห์เชิงเหตุผล ซึ่งเป็นแนวทางต่อยอดสู่การพัฒนาเครื่องมือช่วยวางแผนโครงการซอฟต์แวร์ในอนาคต

Other Abstract (Other language abstract of ETD)

Effort estimation is crucial for planning resources, schedules, and project costs, particularly in Agile environments that require frequent short-cycle planning. Traditional expert-based approaches still face bias and contextual limitations. This study evaluates the accuracy and learning capability of three generative AI models: ChatGPT-4, Gemini 1.5, and Claude 3, using 100 real Jira tasks across four conditions: zero-shot prompting, contextual development examples, historical task-effort examples, and comparison between new-development and maintenance tasks. Results show that Gemini 1.5 consistently produces the lowest estimation error at the 95% confidence level, while ChatGPT-4, though initially less accurate, improves the most when given quantitative historical data. Claude 3 performs moderately. Differences between task types are not statistically significant, though maintenance tasks show slightly higher variability. Overall, generative AI can support effort estimation but still exhibits notable error, making contextual and historical information essential. Gemini 1.5 is a stable baseline, while ChatGPT-4 and Claude 3 offer stronger contextual reasoning useful for future AI-assisted project planning tools.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.