Chulalongkorn University Theses and Dissertations (Chula ETD)

Year (A.D.)

2021

Document Type

Thesis

First Advisor

Peerapon Vateekul

Second Advisor

Boonserm Kijsirikul

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)

Degree Name

Master of Engineering

Degree Level

Master's Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2021.97

Abstract

Lifelong learning (LL) is a machine learning paradigm in which a learner is sequentially trained on a stream of new tasks while preventing learned knowledge from being forgotten. To achieve lifelong language learning, pseudo-rehearsal methods leverage samples generated from a language model to refresh the knowledge of previously learned tasks. Without proper controls, however, these methods could fail to retain the knowledge of complex tasks with longer texts since most of the generated samples are low in quality. To overcome the problem, we propose three specific contributions. First, we utilize double language models, each of which specializes on a specific part of input, to logically produce high-quality pseudo samples. Second, we reduce the number of parameters used by applying adapter modules to enhance training efficiency. Third, we further improve the overall quality of pseudo samples by exploiting the rational structure of the input using temporal ensembling and sample regeneration. The results show that our framework achieves significant improvement over baselines on multiple task sequences. Also, our pseudo sample analysis reveals helpful insights for designing even better pseudo-rehearsal methods in the future.

Other Abstract (Other language abstract of ETD)

การเรียนรู้ตลอดชีวิตคือวิธีการหนึ่งในการเรียนรู้ของเครื่องซึ่งผู้เรียนจะทำการเรียนอย่างค่อยเป็นค่อยไปบน งานที่เข้ามาเรื่อย ๆ ในขณะที่ป้องกันการลืมของความรู้ที่เรียนมา เพื่อบรรลุการเรียนรู้ตลอดชีวิต วิธีการทบทวน ตัวอย่างเทียมใช้งานตัวอย่างที่ถูกสร้างจากโมเดลภาษาเพื่อทำการทบทวนความรู้ที่เรียนมาก่อนหน้า แต่ถ้าหาก ไม่มีการควบคุม วิธีดังกล่าวอาจจะไม่สามารถป้องกันการลืมบนงานที่มีความซับซ้อนและความยาวมาก เนื่องจาก ตัวอย่างที่ถูกสร้างขึ้นมาจะมีคุณภาพต่ำ เพื่อแก้ปัญหาดังกล่าว งานวิจัยนี้จึงเสนอผลงานสามอย่างด้วยกัน หนึ่ง งานวิจัยนี้ใช้โมเดลภาษาสองตัว ซึ่งแต่ละตัวจะชำนาญในแต่ละส่วนของอินพุต เพื่อสร้างตัวอย่างเทียมที่มีคุณ- ภาพอย่างสมเหตุสมผล สอง งานวิจัยนี้ใช้อะแดปเตอร์โมดูล (Adapter module) เพื่อลดปริมาณพารามิเตอร์ และเพิ่มความเร็วในการฝึกฝน สาม งานวิจัยนี้เพิ่มคุณภาพของตัวอย่างเทียมโดยการใช้โครงสร้างของอินพุต อย่างเป็นเหตุเป็นผล โดยใช้วิธีการประกอบข้ามการเวลาและการสร้างตัวอย่างเทียมซ้ำ ผลลัพธ์ของการทดลอง แสดงให้เห็นว่าโครงที่งานวิจัยนี้เสนอ สามารถบรรลุประสิทธิภาพที่สูงกว่าพื้นฐานอย่างมากบนหลายลำดับ งาน นอกจากนี้ งานวิจัยนี้ยังเผยข้อมูลเชิงลึกที่มีประโยชน์ต่อการสร้างวิธีการทบทวนตัวอย่างเทียมที่มีประ สิทธิภาพสูงยิ่งกว่าในอนาคตได้

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.