Chulalongkorn University Theses and Dissertations (Chula ETD)
Other Title (Parallel Title in Other Language of ETD)
Algorithm development for product name matching with diverse naming conventions using natural language processing
Year (A.D.)
2023
Document Type
Thesis
First Advisor
ธีรพล ศิลาวรรณ์
Second Advisor
ปภัสสร์ ฟุ้งธรรมสาร
Faculty/College
Faculty of Engineering (คณะวิศวกรรมศาสตร์)
Department (if any)
Department of Electrical Engineering (ภาควิชาวิศวกรรมไฟฟ้า)
Degree Name
วิศวกรรมศาสตรมหาบัณฑิต
Degree Level
ปริญญาโท
Degree Discipline
วิศวกรรมไฟฟ้า
DOI
10.58837/CHULA.THE.2023.824
Abstract
ในขอบเขตของการซื้อขายสินค้าระหว่างองค์กร ความท้าทายที่สำคัญเกิดขึ้นเมื่อต้องจับคู่คำสั่งซื้อของลูกค้ากับชื่อสินค้าในฐานข้อมูล ซึ่งชื่อสินค้าเหล่านี้มีรูปแบบการตั้งชื่อที่หลากหลาย วิทยานิพนธ์นี้จะกล่าวถึงความซับซ้อนของการจับคู่ชื่อสินค้าภายในบริษัท เจนบรรเจิด จำกัด ซึ่งเป็นบริษัทที่เชี่ยวชาญในการขายสินค้าสำหรับธุรกิจบริการ ปัจจุบันวิธีการที่ใช้แก้ปัญหานี้คือการใช้พนักงานเปรียบเทียบคำสั่งซื้อของลูกค้ากับชื่อสินค้าในฐานข้อมูลทีละรายการ ซึ่งเป็นกระบวนการที่สิ้นเปลืองแรงงานและเวลาเป็นอย่างมาก วิทยานิพนธ์นี้จึงนำเสนอการใช้เทคนิคการประมวลผลภาษาธรรมชาติ (NLP) เพื่อแก้ปัญหาดังกล่าว โดยเริ่มจากการใช้ Pointwise Mutual Information (PMI) ในการคัดเลือกคำสำคัญในพจนานุกรมแบบกำหนดเอง เพื่อการตัดคำภาษาไทยที่เหมาะสมกับชุดข้อมูล จากนั้นนำระบบตัดคำที่ปรับปรุงแล้วมาใช้ในการออกแบบขั้นตอนวิธีสำหรับการสกัดคำหลัก รวมถึงการใช้เทคนิคการวิเคราะห์ความหมายแฝง (LSA) เพื่อค้นหาคำที่คล้ายกับคำค้นหา สุดท้ายจึงนำส่วนต่างๆ มารวมเข้ากับการใช้เทคนิคการจับคู่ข้อความโดยประมาณ จนเกิดเป็นขั้นตอนวิธีสำหรับจับคู่รายชื่อสินค้า ขั้นตอนวิธีที่นำเสนอสามารถทำงานได้อย่างมีประสิทธิภาพ โดยมีความแม่นยำในการระบุผลลัพธ์มากถึง 93.80% และมีความครอบคลุมมากถึง 91.67% ในการทดสอบจับคู่กับชุดตัวอย่างคำสั่งซื้อจริงจากลูกค้า
Other Abstract (Other language abstract of ETD)
In the scope of product selling between organizations, a significant challenge arises when matching customer orders with product names in the database, where these product names have various naming conventions. This thesis discusses the complexity of product name matching within "Jenbunjerd Co., Ltd.," a company specializing in selling products for service businesses. The current method involves employees comparing customer orders with product names in the database one by one, which consumes a great deal of labor and time. Therefore, this thesis proposes using natural language processing (NLP) techniques to address this issue. The process starts with using Pointwise Mutual Information (PMI) to select keywords in a custom dictionary for Thai word tokenization suitable for the dataset. Then, the improved word tokenization system is used to design an algorithm for keyword extraction, including using Latent Semantic Analysis (LSA) techniques to find words similar to the search terms. Finally, the various parts are combined with approximate string matching techniques, resulting in an algorithm for matching product names. The proposed algorithm works efficiently, with a precision of up to 93.80% and a recall of up to 91.67% in testing matching with the real customer orders set.
Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-No Derivative Works 4.0 International License.
Recommended Citation
เจียมสกุล, สหฤษฎ์, "การพัฒนาขั้นตอนวิธีสำหรับการจับคู่ชื่อสินค้าที่มีรูปแบบการตั้งชื่อที่หลากหลายโดยใช้การประมวลผลภาษาธรรมชาติ" (2023). Chulalongkorn University Theses and Dissertations (Chula ETD). 12255.
https://digital.car.chula.ac.th/chulaetd/12255