Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

Algorithm development for product name matching with diverse naming conventions using natural language processing

Year (A.D.)

2023

Document Type

Thesis

First Advisor

ธีรพล ศิลาวรรณ์

Second Advisor

ปภัสสร์ ฟุ้งธรรมสาร

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Department (if any)

Department of Electrical Engineering (ภาควิชาวิศวกรรมไฟฟ้า)

Degree Name

วิศวกรรมศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

วิศวกรรมไฟฟ้า

DOI

10.58837/CHULA.THE.2023.824

Abstract

ในขอบเขตของการซื้อขายสินค้าระหว่างองค์กร ความท้าทายที่สำคัญเกิดขึ้นเมื่อต้องจับคู่คำสั่งซื้อของลูกค้ากับชื่อสินค้าในฐานข้อมูล ซึ่งชื่อสินค้าเหล่านี้มีรูปแบบการตั้งชื่อที่หลากหลาย วิทยานิพนธ์นี้จะกล่าวถึงความซับซ้อนของการจับคู่ชื่อสินค้าภายในบริษัท เจนบรรเจิด จำกัด ซึ่งเป็นบริษัทที่เชี่ยวชาญในการขายสินค้าสำหรับธุรกิจบริการ ปัจจุบันวิธีการที่ใช้แก้ปัญหานี้คือการใช้พนักงานเปรียบเทียบคำสั่งซื้อของลูกค้ากับชื่อสินค้าในฐานข้อมูลทีละรายการ ซึ่งเป็นกระบวนการที่สิ้นเปลืองแรงงานและเวลาเป็นอย่างมาก วิทยานิพนธ์นี้จึงนำเสนอการใช้เทคนิคการประมวลผลภาษาธรรมชาติ (NLP) เพื่อแก้ปัญหาดังกล่าว โดยเริ่มจากการใช้ Pointwise Mutual Information (PMI) ในการคัดเลือกคำสำคัญในพจนานุกรมแบบกำหนดเอง เพื่อการตัดคำภาษาไทยที่เหมาะสมกับชุดข้อมูล จากนั้นนำระบบตัดคำที่ปรับปรุงแล้วมาใช้ในการออกแบบขั้นตอนวิธีสำหรับการสกัดคำหลัก รวมถึงการใช้เทคนิคการวิเคราะห์ความหมายแฝง (LSA) เพื่อค้นหาคำที่คล้ายกับคำค้นหา สุดท้ายจึงนำส่วนต่างๆ มารวมเข้ากับการใช้เทคนิคการจับคู่ข้อความโดยประมาณ จนเกิดเป็นขั้นตอนวิธีสำหรับจับคู่รายชื่อสินค้า ขั้นตอนวิธีที่นำเสนอสามารถทำงานได้อย่างมีประสิทธิภาพ โดยมีความแม่นยำในการระบุผลลัพธ์มากถึง 93.80% และมีความครอบคลุมมากถึง 91.67% ในการทดสอบจับคู่กับชุดตัวอย่างคำสั่งซื้อจริงจากลูกค้า

Other Abstract (Other language abstract of ETD)

In the scope of product selling between organizations, a significant challenge arises when matching customer orders with product names in the database, where these product names have various naming conventions. This thesis discusses the complexity of product name matching within "Jenbunjerd Co., Ltd.," a company specializing in selling products for service businesses. The current method involves employees comparing customer orders with product names in the database one by one, which consumes a great deal of labor and time. Therefore, this thesis proposes using natural language processing (NLP) techniques to address this issue. The process starts with using Pointwise Mutual Information (PMI) to select keywords in a custom dictionary for Thai word tokenization suitable for the dataset. Then, the improved word tokenization system is used to design an algorithm for keyword extraction, including using Latent Semantic Analysis (LSA) techniques to find words similar to the search terms. Finally, the various parts are combined with approximate string matching techniques, resulting in an algorithm for matching product names. The proposed algorithm works efficiently, with a precision of up to 93.80% and a recall of up to 91.67% in testing matching with the real customer orders set.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.