Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
A comparative study on the use of generative Als in task effort estimation inagile software projects
Year (A.D.)
2025
Document Type
Independent Study
First Advisor
ทวิตีย์ เสนีวงศ์ ณ อยุธยา
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
วิทยาศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมซอฟต์แวร์
DOI
10.58837/CHULA.IS.2025.46
Abstract
การประมาณค่าความพยายามในการพัฒนาซอฟต์แวร์เป็นขั้นตอนสำคัญที่ส่งผลต่อการวางแผนทรัพยากร เวลา และต้นทุนของโครงการ โดยเฉพาะในกระบวนการแอไจล์ที่ต้องประเมินซ้ำในรอบสั้น ๆ ขณะที่วิธีดั้งเดิมที่ใช้ประสบการณ์ผู้เชี่ยวชาญยังมีข้อจำกัด งานวิจัยนี้จึงเปรียบเทียบความแม่นและความสามารถในการเรียนรู้ของโมเดลปัญญาประดิษฐ์เชิงสร้างสรรค์สามรุ่น ได้แก่ ChatGPT-4, Gemini 1.5 และ Claude 3 โดยให้ประมาณค่าความพยายามจากข้อมูลงานจริง 100 รายการใน Jira ภายใต้ 4 เงื่อนไขคือ การสอบถามแบบไม่ให้ตัวอย่างนำ การให้ตัวอย่างจากบริบทการพัฒนา การให้ตัวอย่างจากข้อมูลงานในอดีต และการเปรียบเทียบระหว่างงานพัฒนาใหม่กับงานแก้ไข/บำรุงรักษา ผลการทดลองพบว่า Gemini 1.5 มีค่าคลาดเคลื่อนน้อยที่สุดในทุกสภาวะ ขณะที่ ChatGPT-4 แม้จะคลาดเคลื่อนสูงกว่าแต่สามารถปรับปรุงผลลัพธ์ได้มากเมื่อได้รับข้อมูลเชิงปริมาณจากงานที่ผ่านมา ส่วน Claude 3 ให้ผลลัพธ์ระดับปานกลาง และการประมาณของงานสองประเภทไม่แตกต่างกันอย่างมีนัยสำคัญ แต่กลุ่มงานแก้ไข/บำรุงรักษามีความผันผวนสูงกว่าเล็กน้อย โดยเฉพาะใน ChatGPT-4 และ Claude 3 โดยสรุป โมเดลทั้งสามสามารถสนับสนุนการประมาณค่าความพยายามได้ แต่ยังมีอัตราคลาดเคลื่อนสูงพอควร และคุณภาพของบริบทกับข้อมูลประวัติเป็นปัจจัยสำคัญ Gemini 1.5 เหมาะเป็นโมเดลพื้นฐานที่เสถียร ส่วน ChatGPT-4 และ Claude 3 เด่นด้านการวิเคราะห์เชิงเหตุผล ซึ่งเป็นแนวทางต่อยอดสู่การพัฒนาเครื่องมือช่วยวางแผนโครงการซอฟต์แวร์ในอนาคต
Other Abstract (Other language abstract of ETD)
Effort estimation is crucial for planning resources, schedules, and project costs, particularly in Agile environments that require frequent short-cycle planning. Traditional expert-based approaches still face bias and contextual limitations. This study evaluates the accuracy and learning capability of three generative AI models: ChatGPT-4, Gemini 1.5, and Claude 3, using 100 real Jira tasks across four conditions: zero-shot prompting, contextual development examples, historical task-effort examples, and comparison between new-development and maintenance tasks. Results show that Gemini 1.5 consistently produces the lowest estimation error at the 95% confidence level, while ChatGPT-4, though initially less accurate, improves the most when given quantitative historical data. Claude 3 performs moderately. Differences between task types are not statistically significant, though maintenance tasks show slightly higher variability. Overall, generative AI can support effort estimation but still exhibits notable error, making contextual and historical information essential. Gemini 1.5 is a stable baseline, while ChatGPT-4 and Claude 3 offer stronger contextual reasoning useful for future AI-assisted project planning tools.
Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
ศิริคูณ, ศิริพัชร, "การศึกษาเชิงเปรียบเทียบเกี่ยวกับการใช้ปัญญาประดิษฐ์เชิงสร้างสรรค์ในการประมาณความพยายามสำหรับงานในโครงการซอฟต์แวร์แบบแอไจล์" (2025). Chulalongkorn University Theses and Dissertations (Chula ETD). 74966.
https://digital.car.chula.ac.th/chulaetd/74966