Chulalongkorn University Theses and Dissertations (Chula ETD)

A calculation pipeline of expectation maximization for admixture application

Other Title (Parallel Title in Other Language of ETD)

สายท่อการคำนวณการทำค่าคาดหมายให้ได้มากที่สุดสำหรับทำการเพิ่มผสม

Year (A.D.)

2012

Document Type

Thesis

First Advisor

Prabhas Chongstitvatana

Faculty/College

Faculty of Engineering (คณะวิศวกรรมศาสตร์)

Degree Name

Doctor of Engineering

Degree Level

Doctoral Degree

Degree Discipline

Computer Engineering

DOI

10.58837/CHULA.THE.2012.1385

Abstract

This thesis presents a calculation method of Admixture. Admixture is a tool to stratify the genotype data to infer the mixing ratio of its ancestry groups. Likelihood calculation was proposed to represent the admixture calculation. Expectation Maximization method was proposed to solve the likelihood problem. Expectation Maximization is based on an iterative mehod that takes very long time. Moreover, the calculation time is too slow for large genetic data. This dissertation proposed a design of FPGA for likelihood calculation. The FPGA has high floating-point operation performance and the calculation is suitable for FPGA. The number of floating point circuit that can be instantiated is more than the floating point units in a general processor. Systolic architecture was applied to the design. The systolic architecute and FPGA can directly stream the input data to the calculation unit. The streaming of input data reduces the memory overhead. The memory overhead is a main bottleneck of the calculation. Furthermore, the design of FPGA connection can reduce the communication cost of each calculation unit. The FPGA operated at 25 MHz gains speed up 4.5x when compared to a single core processor operated at 2.4GHz.

Other Abstract (Other language abstract of ETD)

วิทยานิพนธ์นี้นำเสนอวิธีคำนวณการเพิ่มผสมซึ่งเป็นเครื่องมือในการวิเคราะห์ส่วนผสมของพันธุกรรมต้นกำเนิดของเผ่าพันธุ์ต่างๆ โดยรูปแบบการคำนวณจะถูกเปลี่ยนมาอยู่ในรูปแบบฟังก์ชันควรจะเป็น ซึ่งฟังก์ชันควรจะเป็นนี้มีการประยุกต์การทำค่าคาดหมายให้ได้มากที่สุดเข้ามาในการแก้ปัญหาฟังก์ชันควรจะเป็น การแก้ปัญหาฟังก์ชันควรจะเป็นมีการเสนอระเบียบวิธีการต่างๆ ที่ตั้งอยู่บนขบวนการทำซ้ำซึ่งต้องการการคำนวณจากหน่วยประมวลผลอยู่มาก อีกทั้งข้อมูลที่ใช้ในการประมวลผลเป็นข้อมูลพันธุกรรมของสิ่งมีชีวิตซึ่งมักจะมีขนาดใหญ่เพื่อเพิ่มความแม่นยำของการคำนวณ จึงทำให้การคำนวณนี้ใช้เวลาในการคำนวณนาน งานวิจัยนี้จึงได้มีการนำเสนอเครื่องมือที่ใช้การคำนวณการเพิ่มผสมรูปแบบใหม่ ด้วยเกตอะเรย์ชนิดโปรแกรมได้ เนื่องจากเกตอะเรย์ชนิดโปรแกรมได้มีประสิทธิภาพการคำนวณข้อมูลแบบจุดทศนิยม และ สามารถสังเคราะห์ตัวดำเนินการจุดทศนิยมได้มากกว่า หน่วยประมวลผลทั่วไป อีกทั้งรูปแบบการคำนวณของการทำค่าคาดหมายให้ได้มากที่สุดเหมาะสมกับเกตอะเรย์ชนิดโปรแกรม งานวิจัยนี้ประยุกต์สถาปัตยกรรมซีสโตลิก (Systolic architecture) ร่วมกับการออกแบบวงจรคำนวณ โดยสถาปัตยกรรมนี้ส่งข้อมูลขาเข้าในรูปแบบสายท่อ เนื่องจากสถาปัตยกรรมซีสโตลิกผนวกกับเกตอะเรย์ชนิดโปรแกรมได้จึงสามารถออกแบบวงจรที่ลดปัญหาจากการสื่อสารระหว่างหน่วยประมวลผลกับหน่วยความจำที่เป็นหนึ่งในสาเหตุหลักของตัวหน่วงการคำนวณ เกตอะเรย์ชนิดโปรแกรมได้ และยังสามารถลดปัญหาการสื่อสารของหน่วยประมวลผลทำให้สามารถเพิ่มประสิทธิภาพการคำนวณได้ถึง 4.5 เท่า ที่ความถี่สัญญาณนาฬิกา 25 เมกะเฮิรตซ์เมื่อเทียบกับหน่วยประมวลผลสี่แกนที่ความถี่สัญญาณนาฬิกา 2.4 กิกะเฮิรตซ์

Share

COinS