Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
ระบบแนะนําเพลยล์ลิสต์เพลงแบบง่ายโดยใช้เกทแบบวนกลับเพื่อกำหนดนโยบายและการกระทำ
Year (A.D.)
2023
Document Type
Thesis
First Advisor
Saranya Maneeroj
Faculty/College
Faculty of Science (คณะวิทยาศาสตร์)
Department (if any)
Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)
Degree Name
Master of Science
Degree Level
Master's Degree
Degree Discipline
Computer Science and Information Technology
DOI
10.58837/CHULA.THE.2023.973
Abstract
Recommendation systems are crucial for helping users discover music tailored to their preferences on streaming services. Reinforcement learning is a popular method for music recommendations. However, previous approaches have struggled with overfitting. The agent may become problematic for the new user context if, after a learning phase, it starts to predict actions only based on previous interactions. To overcome this limitation, previous methods require retraining, which require resetting all parameters in the agent. This study introduces the Policy GRU-RL method, which combines sequential-based learning and reinforcement learning to address overfitting without resetting all parameters. It utilizes a recurrent network by implementing an epsilon-greedy policy within the GRU gate. A gate in the GRU determines whether to predict a random action (current input of the GRU cell) or an optimal action (information from the preceding GRU cell, containing actions with maximum rewards). It also carries epsilon and action values through the network to determine overfitting. This approach eliminates the need for retraining, thus saving time and computational resources. The results demonstrate that the proposed Policy GRU-RL outperforms baseline methods in terms of accuracy and the number of training iterations before overfitting.
Other Abstract (Other language abstract of ETD)
ระบบแนะนำบนบริการสตรีมมิ่งมีความสำคัญกับผู้ใช้ในการช่วยหาเพลงที่เหมาะกับความชอบของผู้ใช้ การเรียนรู้แบบเสริมกำลังเป็นหนึ่งในวิธีที่ได้รับความนิยมสำหรับระบบแนะนำเพลง อย่างไรก็ตาม งานวิจัยที่เกี่ยวข้องก่อนหน้านี้ยังพบปัญหาในเรื่องการโอเวอร์ฟิตติ้ง กล่าวคือ เมื่อฝึกสอนเป็นระยะเวลาหนึ่งระบบจะแนะนำแต่เพลงที่มีความคล้ายคลึงกับปฏิสัมพันธ์ที่ใช้ในการฝึกสอน เพื่อแก้ปัญหาดังกล่าวงานวิจัยก่อนหน้าจึงต้องทำการฝึกสอนระบบใหม่ งานวิจัยนี้จึงนำเสนอระบบแนะนําโดยใช้เกทแบบวนกลับเพื่อกำหนดนโยบายและการกระทำ ซึ่งรวมการเรียนรู้ตามลำดับและการเรียนรู้แบบเสริมกำลังเพื่อแก้ไขปัญหาโอเวอร์ฟิตติ้งโดยไม่ต้องฝึกสอนระบบใหม่ วิธีนี้นำเอานโยบายแบบตะกละด้วยค่าเอปซิลอนไปใช้ภายใน เกทของโครงข่ายแบบวนกลับโดยเกทสำหรับการอัปเดทภายในโครงข่ายแบบวนกลับ จะถูกใช้ในกำหนดว่าระบบจะเลือกการกระทำแบบสุ่ม(ข้อมูลปัจจุบันของเซลล์ของโครงข่ายแบบวนกลับ)หรือการกระทำที่เหมาะสมที่สุด(ข้อมูลจากเซลล์ของโครงข่ายแบบวนกลับก่อนหน้าที่ได้รับคะแนนสูงสุด) นอกจากนี้ ระบบยังจะทำการส่งค่าเอปซิลอนและค่าการกระทำไปยังเซลล์ถัดไป เพื่อนำไปใช้ในการประเมินการโอเวอร์ฟิตติ้งการโอเวอร์ฟิตติ้งคือระบบจะทำนายการกระทำเดิมซ้ำเกินค่าที่ได้กำหนดไว้ หากพบการโอเวอร์ฟิตติ้งค่าเอปซิลอนในระบบจะถูกรีเซ็ต วิธีการนี้ขจัดความจำเป็นในการฝึกฝนใหม่ ทำให้ประหยัดเวลาและทรัพยากรคอมพิวเตอร์ จากผลการทดลองพบว่าระบบที่นำเสนอได้รับผลการทดลองดีกว่าระบบพื้นฐานก่อนหน้าในด้านความแม่นยำและรอบการฝึกสอนโดยไม่พบการโอเวอร์ฟิตติ้ง
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Channarong, Chanapa, "Simplified music playlist recommendation using sequential-based gated recurrent unit for policy and action determination" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 11664.
https://digital.car.chula.ac.th/chulaetd/11664