Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

ระบบแนะนําเพลยล์ลิสต์เพลงแบบง่ายโดยใช้เกทแบบวนกลับเพื่อกำหนดนโยบายและการกระทำ

Year (A.D.)

2023

Document Type

Thesis

First Advisor

Saranya Maneeroj

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Department (if any)

Department of Mathematics and Computer Science (ภาควิชาคณิตศาสตร์และวิทยาการคอมพิวเตอร์)

Degree Name

Master of Science

Degree Level

Master's Degree

Degree Discipline

Computer Science and Information Technology

DOI

10.58837/CHULA.THE.2023.973

Abstract

Recommendation systems are crucial for helping users discover music tailored to their preferences on streaming services. Reinforcement learning is a popular method for music recommendations. However, previous approaches have struggled with overfitting. The agent may become problematic for the new user context if, after a learning phase, it starts to predict actions only based on previous interactions. To overcome this limitation, previous methods require retraining, which require resetting all parameters in the agent. This study introduces the Policy GRU-RL method, which combines sequential-based learning and reinforcement learning to address overfitting without resetting all parameters. It utilizes a recurrent network by implementing an epsilon-greedy policy within the GRU gate. A gate in the GRU determines whether to predict a random action (current input of the GRU cell) or an optimal action (information from the preceding GRU cell, containing actions with maximum rewards). It also carries epsilon and action values through the network to determine overfitting. This approach eliminates the need for retraining, thus saving time and computational resources. The results demonstrate that the proposed Policy GRU-RL outperforms baseline methods in terms of accuracy and the number of training iterations before overfitting.

Other Abstract (Other language abstract of ETD)

ระบบแนะนำบนบริการสตรีมมิ่งมีความสำคัญกับผู้ใช้ในการช่วยหาเพลงที่เหมาะกับความชอบของผู้ใช้ การเรียนรู้แบบเสริมกำลังเป็นหนึ่งในวิธีที่ได้รับความนิยมสำหรับระบบแนะนำเพลง อย่างไรก็ตาม งานวิจัยที่เกี่ยวข้องก่อนหน้านี้ยังพบปัญหาในเรื่องการโอเวอร์ฟิตติ้ง กล่าวคือ เมื่อฝึกสอนเป็นระยะเวลาหนึ่งระบบจะแนะนำแต่เพลงที่มีความคล้ายคลึงกับปฏิสัมพันธ์ที่ใช้ในการฝึกสอน เพื่อแก้ปัญหาดังกล่าวงานวิจัยก่อนหน้าจึงต้องทำการฝึกสอนระบบใหม่ งานวิจัยนี้จึงนำเสนอระบบแนะนําโดยใช้เกทแบบวนกลับเพื่อกำหนดนโยบายและการกระทำ ซึ่งรวมการเรียนรู้ตามลำดับและการเรียนรู้แบบเสริมกำลังเพื่อแก้ไขปัญหาโอเวอร์ฟิตติ้งโดยไม่ต้องฝึกสอนระบบใหม่ วิธีนี้นำเอานโยบายแบบตะกละด้วยค่าเอปซิลอนไปใช้ภายใน เกทของโครงข่ายแบบวนกลับโดยเกทสำหรับการอัปเดทภายในโครงข่ายแบบวนกลับ จะถูกใช้ในกำหนดว่าระบบจะเลือกการกระทำแบบสุ่ม(ข้อมูลปัจจุบันของเซลล์ของโครงข่ายแบบวนกลับ)หรือการกระทำที่เหมาะสมที่สุด(ข้อมูลจากเซลล์ของโครงข่ายแบบวนกลับก่อนหน้าที่ได้รับคะแนนสูงสุด) นอกจากนี้ ระบบยังจะทำการส่งค่าเอปซิลอนและค่าการกระทำไปยังเซลล์ถัดไป เพื่อนำไปใช้ในการประเมินการโอเวอร์ฟิตติ้งการโอเวอร์ฟิตติ้งคือระบบจะทำนายการกระทำเดิมซ้ำเกินค่าที่ได้กำหนดไว้ หากพบการโอเวอร์ฟิตติ้งค่าเอปซิลอนในระบบจะถูกรีเซ็ต วิธีการนี้ขจัดความจำเป็นในการฝึกฝนใหม่ ทำให้ประหยัดเวลาและทรัพยากรคอมพิวเตอร์ จากผลการทดลองพบว่าระบบที่นำเสนอได้รับผลการทดลองดีกว่าระบบพื้นฐานก่อนหน้าในด้านความแม่นยำและรอบการฝึกสอนโดยไม่พบการโอเวอร์ฟิตติ้ง

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.