Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

The ai data analyst : a framework for autonomous data analytics, highlighting LLM and AI agents

Year (A.D.)

2025

Document Type

Thesis

First Advisor

โปรดปราน บุณยพุกกณะ

Second Advisor

อติวงศ์ สุชาโต

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมคอมพิวเตอร์

DOI

10.58837/CHULA.THE.2025.164

Abstract

การวิเคราะห์เชิงข้อมูลที่ดำเนินการโดยมนุษย์มีความท้าทาย เนื่องจากต้องใช้เวลา ทักษะเฉพาะทาง และทรัพยากรจำนวนมาก งานวิจัยนี้มีจุดมุ่งหมายเพื่อค้นหาวิธีในการใช้ปัญญาประดิษฐ์เชิงสร้างสรรค์เพื่อทำให้กระบวนการวิเคราะห์ข้อมูลเป็นแบบอัตโนมัติ โดยปฏิบัติตามวิธี 6 ขั้นตอน ได้แก่ ถาม เตรียม ประมวลผล วิเคราะห์ แบ่งปัน และดำเนินการ โดยไม่มีมนุษย์เข้ามาแทรกแซงตลอดกระบวนการวิเคราะห์ การดำเนินการเริ่มตั้งแต่ผู้ใช้ป้อนชุดข้อมูล วัตถุประสงค์ที่ต้องการ บริบทของข้อมูล และสมมติฐานที่มีอยู่ก่อน จากนั้นระบบจะสร้างคำสั่ง และดำเนินงานต่าง ๆ โดยอัตโนมัติผ่านตัวแทนปัญญาประดิษฐ์ที่ออกแบบเฉพาะทาง โดยตัวแทนเหล่านี้มีบทบาทในการวางแผนและกำหนดการดำเนินงาน โดยอาศัยแบบจำลองภาษาขนาดใหญ่ในการสร้างแนวคิดและใช้เหตุผลเพื่อกำหนดแนวทางการวางแผนและการดำเนินการ ผลการทดลองจาก 5 ชุดข้อมูลในสาขาที่แตกต่างกัน ได้แก่ การศึกษา สุขภาพ ธุรกิจ สิ่งแวดล้อม และเศรษฐกิจ แสดงให้เห็นว่า ผลการประเมินตามเกณฑ์คะแนนการวิเคราะห์เชิงข้อมูลเฉลี่ย 8.1 – 9.4 จากคะแนนเต็ม 10 โดยมีความสอดคล้องระหว่างผลการประเมินโดยแบบจำลองภาษาขนาดใหญ่และมนุษย์เฉลี่ย 0.94 – 0.97 มีเวลาในการดำเนินงานเฉลี่ย 1.8 - 6.6 นาที มีข้อผิดพลาดเฉลี่ย 0.2 - 1.8 ครั้ง และมีความสามารถในการทำงานต่าง ๆ เช่น ประมวลผลโค้ด คำนวณสถิติหรือสร้างแบบจำลองการเรียนรู้ของเครื่อง และแสดงผลภาพได้ งานวิจัยนี้ชี้ให้เห็นถึงศักยภาพของแบบจำลองภาษาขนาดใหญ่ในการทำหน้าที่เป็นนักวิเคราะห์ข้อมูลเสมือน และสามารถต่อยอดระบบวิเคราะห์เชิงข้อมูลแบบอัตโนมัติในสาขาต่าง ๆ ได้ในอนาคต

Other Abstract (Other language abstract of ETD)

Human-driven data analytics is inherently challenging due to the time, specialized skills, and extensive resources required. This research aims to explore a generative artificial intelligence (AI)–driven approach to automate the entire data analytics process, following the six-step methodology: Ask, Prepare, Process, Analyze, Share, and Act without human intervention throughout. The system begins by accepting user input consisting of a dataset, objective, contextual information, and prior hypotheses. It then autonomously generates prompts and executes tasks through specialized AI agents. These agents are responsible for planning and directing tasks, leveraging large language model (LLM) to generate ideas and reasoning to guide their planning and actions. Experimental results across five diverse domains, including education, health, business, environment, and economy show average data analytics scores ranging from 8.1 to 9.4 out of 10. The alignments between human and LLM-based evaluation show average cosine similarity scores between 0.94 and 0.97. The average processing times range from 1.8 to 6.6 minutes, with average of 0.2 to 1.8 errors per run. The system demonstrates capabilities such as executing code, performing statistical analysis or machine learning modeling, and generating visualization. This research highlights the potential of LLM to perform as virtual data analyst and provides a foundation for extending fully autonomous data analytics systems across various domains.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.