Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
การปรับปรุงการเรียนรู้ตัวเข้ารหัสประโยคพหุภาษาสำหรับการรับสมัครงาน
Year (A.D.)
2024
Document Type
Thesis
First Advisor
Ekapol Chuangsuwanich
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Computer Engineering (ภาควิชาวิศวกรรมคอมพิวเตอร์)
Degree Name
Master of Engineering
Degree Level
Master's Degree
Degree Discipline
Computer Engineering
DOI
10.58837/CHULA.THE.2024.233
Abstract
With the advancement in natural language processing (NLP), there has been significant development in multilingual pretraining sentence encoder. Typically, these pretraining models are trained on large-scale datasets that consist of general text data from various sources such as Wikipedia. However, the general proposed models aren't enough to understand contexts in such a domain-specific, especially in the job recruitment domain. It is due to its niche nature and the lack of readily available related information. To enhance the existing multilingual pretraining sentence encoder and mitigate the aforementioned problems, we first propose multi-task dual-encoder framework to improve the sentence encoder for general-purpose use in the job application domain, which under this framework consists of three proposed job-related task: job title translation ranking task, job descriptiona and title matching, and jobfield classification. Moreover, we also conduct extensive study to the proposed job-related task, especially job description and title matching by proposing a Job description Aggregation Network (JDAN) that inside this network introduce job description aggregator and bidirectional contrastive loss as novel compoments for training the sentence encoder. For the first part, the result has shown that our proposed model achieves 6.6% on the JTG job title identification and approximately 10% on the occupation classification improvements compared to the baseline in the test set. For the second part, we evaluated the performance of our method on both JTG job title identification and job title normalization settings, achieving a superior performance over the skill-based approach.
Other Abstract (Other language abstract of ETD)
ด้วยความก้าวหน้าในกระบวนการประมวลผลภาษาธรรมชาติ (NLP) ได้มีการพัฒนาที่สำคัญในการฝึกสอนแบบหลายภาษาสำหรับตัวเข้ารหัสประโยคแบบพรีเทรน โดยทั่วไปแล้ว แบบจำลองพรีเทรนเหล่านี้จะถูกฝึกบนชุดข้อมูลขนาดใหญ่ที่ประกอบด้วยข้อมูลข้อความทั่วไปจากแหล่งต่างๆ เช่น Wikipedia อย่างไรก็ตาม แบบจำลองทั่วไปที่ถูกเสนอไม่เพียงพอที่จะเข้าใจบริบทในโดเมนเฉพาะทาง โดยเฉพาะในโดเมนการสรรหางาน เนื่องจากความเฉพาะทางของมันและการขาดข้อมูลที่เกี่ยวข้องที่พร้อมใช้งาน ในการปรับปรุงตัวเข้ารหัสประโยคแบบพรีเทรนหลายภาษาให้ดีขึ้นและแก้ไขปัญหาที่กล่าวถึงข้างต้น เราจึงเสนอกรอบงานตัวเข้ารหัสคู่แบบหลายงานเพื่อปรับปรุงตัวเข้ารหัสประโยคสำหรับการใช้งานทั่วไปในโดเมนการสมัครงาน ซึ่งกรอบงานนี้ประกอบด้วยงานที่เกี่ยวข้องกับงานสามอย่าง ได้แก่ งานการจัดอันดับการแปลชื่องาน งานการจับคู่คำอธิบายงานและชื่อเรื่อง และงานการจัดประเภทฟิลด์งาน นอกจากนี้ เรายังทำการศึกษาขยายเพิ่มเติมเกี่ยวกับงานที่เกี่ยวข้องกับงาน โดยเฉพาะงานการจับคู่คำอธิบายงานและชื่อเรื่อง โดยการเสนอเครือข่ายการรวมคำอธิบายงาน (JDAN) ซึ่งในเครือข่ายนี้มีการนำเสนอเครื่องรวมคำอธิบายงานและการสูญเสียการเปรียบเทียบแบบสองทิศทางเป็นองค์ประกอบใหม่ในการฝึกอบรมตัวเข้ารหัสประโยค สำหรับส่วนแรก ผลลัพธ์แสดงให้เห็นว่าแบบจำลองที่เราเสนอมีประสิทธิภาพดีกว่าฐานข้อมูลโดยบรรลุ 6.6% ในการระบุชื่องานของ JTG และปรับปรุงประมาณ 10% ในการจำแนกอาชีพในชุดทดสอบ สำหรับส่วนที่สอง เราประเมินประสิทธิภาพของวิธีการของเราทั้งในการระบุชื่องานของ JTG และการทำให้ชื่อเรื่องเป็นปกติ โดยมีประสิทธิภาพดีกว่าวิธีการที่ใช้ทักษะเป็นฐาน
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
Laosaengpha, Napat, "Enhancing multilingual sentence representation learning for the job recruitment domain" (2024). Chulalongkorn University Theses and Dissertations (Chula ETD). 11919.
https://digital.car.chula.ac.th/chulaetd/11919