Chulalongkorn University Theses and Dissertations (Chula ETD)

A mathematical algorithm to study the complex diseases : a case study of beta [superscript 0]-thalassemia/HB E'S and crohn's diseases

Other Title (Parallel Title in Other Language of ETD)

ขั้นตอนวิธีทางคณิตศาสตร์เพื่อใช้ศึกษาโรคที่มีความซับซ้อน : กรณีศึกษาโรคบีตา[superscript 0]-ธาลัสซีเมียฮีโมโกบินอีและโรคโครน

Year (A.D.)

2009

Document Type

Thesis

First Advisor

Chidchanok Lursinsap

Second Advisor

Suphakant Phimoltares

Faculty/College

Faculty of Science (คณะวิทยาศาสตร์)

Degree Name

Doctor of Philosophy

Degree Level

Doctoral Degree

Degree Discipline

Computer Science

DOI

10.58837/CHULA.THE.2009.1079

Abstract

After the human genome project, case-control association studies have been used to extract knowledge of disease association from SNPs. Costs and time in genotyping SNPs are reduced, genotyping SNPs or whole genome is now possible to study the association in a particular disease. However, increasing a number of SNPs affects a number of all possible cases which grows exponentially. A new feature selection and classification called IFGA with BoostMode-SVM is proposed. Two real data sets of case-control association study of Beta-0/Hb E Thalassemia and Crohn's disease from a given set of genotype data are evaluated. The IFGA for feature selection with the BoostMode-SVM classification performs well in both Thalassemia and Crohn's diseases compared with the previous techniques: Optimum Random Forest and CART. We used 6 features as biomarkers for Thalassemia with 71.57% accuracy and 8 features for Crohn's disease with 71.06% accuracy by 10-fold cross validation.

Other Abstract (Other language abstract of ETD)

หลังจากโครงการจีโนมมนุษย์เสร็จสิ้นลง การศึกษาความสัมพันธ์ของกลุ่มผู้ป่วยกับกลุ่มควบคุม ถูกนำมาใช้เพื่อสกัดความรู้ด้านความสัมพันธ์ของโรค ในขณะนี้ค่าใช้จ่ายและเวลาที่ใช้ในการหาจีโนไทป์ของสนิปส์ได้ลดลงกว่าอดีต การหาจีโนไทป์ของสนิปส์บางตัวหรือทั้งจีโนม เพื่อที่จะศึกษาความสัมพันธ์ของโรคสามารถทำได้ อย่างไรก็ตามการเพิ่มจำนวนสนิปส์ในการศึกษาความสัมพันธ์ของโรค จะส่งผลให้มีจำนวนคำตอบของตำแหน่งของยีนที่ไวกับการเกิดโรคที่เป็นไปได้ทั้งหมดเพิ่มขึ้นสูงอย่างมาก วิทยานิพนธ์ฉบับนี้ได้นำเสนอวิธีการเลือกตำแหน่งที่สำคัญสำหรับใช้ในการแบ่งกลุ่มใหม่ชื่อว่า IFGA พร้อมด้วย BoostMode-SVM ข้อมูลจีโนไทป์ของโรคบีตา0-ธาลัสซีเมียฮีโมโกลบินอีและโรคโครนถูกนำมาทดสอบ ผลการทดลองพบว่าวิธี IFGA พร้อมด้วย BoostMode-SVM ให้ความถูกต้องมากกว่าทั้งในโรคบีตา[superscript 0]-ธาลัสซีเมียฮีโมโกลบินอีและโรคโครน เมื่อเปรียบเทียบกับวิธี Optimum Random Forest และ CART โรคบีตา0-ธาลัสซีเมียฮีโมโกลบินอีใช้ 6 ตำแหน่งในการแบ่งกลุ่มระหว่างกลุ่มผู้ป่วยกับกลุ่มควบคุมด้วยความถูกต้อง 71.57% และใช้ 8 ตำแหน่งสำหรับการแบ่งกลุ่มระหว่างกลุ่มผู้ป่วยกับกลุ่มควบคุมของโรคโครนด้วยความถูกต้อง 71.06% ด้วยการเฉลี่ยจากการทดสอบ 10 ครั้ง

Share

COinS